python爬取上市公司财务数据

爬取入口
http://data.eastmoney.com/bbsj/201112/yjbb.html
使用selenium进行爬取的,本来参考其他博主的代码,但是有人反馈遇到乱码问题,我使用pandas read_html()进行解析的,没有碰到,效率还是很高的,也比较通用。

上代码吧

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
import time
import pandas as pd
import os
from time import sleepchrome_options = webdriver.ChromeOptions()
browser = webdriver.Chrome(chrome_options=chrome_options)
browser.maximize_window()  # 最大化窗口
wait = WebDriverWait(browser, 10)
df=pd.DataFrame()
for p in range(2010,2021):url = 'http://data.eastmoney.com/bbsj/'+str(p)+'12/yjbb.html'print(url)browser.get(url)i=1page=0while True:element = browser.find_elements_by_class_name("dataview-body")tb = pd.read_html(element[0].get_attribute("outerHTML"))[0]tb["年份"]=pdf=df.append(tb)#判断是否最后一页nextpage = browser.find_elements_by_link_text("下一页")if len(nextpage)==0:breaki=i+1
#翻页功能while True:try:next_page =wait.until(EC.presence_of_element_located((By.LINK_TEXT,"下一页")))wait.until(EC.element_to_be_clickable((By.LINK_TEXT,"下一页"))  )next_page.click()if wait.until(EC.text_to_be_present_in_element((By.CLASS_NAME,"active"), str(i))):breakexcept:passdf.to_excel("C:\\Users\\CT\\Desktop\\222.xlsx")

爬取上市公司财务数据相关推荐

  1. python爬取上市公司套期保值公告(巨潮网)--使用Selenium方法

    python爬虫爬取上市公司套期保值公告(巨潮网) 摘要 巨潮资讯网的网页是通过JavaScript动态加载的,因此本文利用Selenium方法爬取该网站上市公司的套期保值公告. 主要技术路线: 1. ...

  2. 【爬虫】使用beautifulsoup、requests爬取网页上的图片;循环爬取上市公司高管信息

    **声明:本篇博文只用于对于爬虫技术的学习交流.如果侵犯到相关网站利益,请联系我删除博文.造成不便还请见谅.希望各位同学在学习的时候不要过于频繁的去请求. 最近博主在学习前端开发和网页相关的东西,这些 ...

  3. php批量爬取上市公司高管持股变动信息

    php批量爬取上市公司高管持股变动信息 用php的爬虫功能 批量爬取上市公司高管的持股信息,我们只需要知道最近一年的持股变动,还需要知道有几位高管持股有变动,人数越多,才说明这个变动和公司的发展是高度 ...

  4. selenium爬取上市公司全部行业及分行业股票行情数据

    上次制作了输入股票代码,显示股票行情.历史数据.股评词云图的网页,但是,想要判断一只股票的投资价值仅看它自己的历史走势是不够的,还要与其他个股尤其是同行业个股进行比较.当然,行业轮动时选对行业是投资成 ...

  5. 雪球网爬取上市公司信息(一):爬取上市公司代号

    条件:有一批5g相关公司,只知道公司名字或是简称,不知道公司是否上市以及股票代码,需要爬取公司信息. 网站:雪球网 思路:上传关键字,爬取搜索结果网页,将有结果的公司信息抓取下来并存入数据库 1.在雪 ...

  6. 用Python爬取上市公司数据、分析数据

    前言 在很多网站上,都会以表格的形式展示数据,而我们获取这种数据只需通过十几行爬虫代码就可以搞定,轻松搞定网页爬虫,实现高效办公 知识点: 爬虫基本原理 requests的简单使用 pandas库 p ...

  7. 中财网爬取上市公司第一大股东持股比例

    1.目标 在中财网(https://www.cfi.cn/) 获取给定上市股票.给定年分的第一大股东持股比例,如下图所示: 分析xhr请求 查看payload需要三个参数,但是非常简单哈,conten ...

  8. 爬取上市公司第一大股东持股比例

    1.目标 获取给定上市股票.给定年分的第一大股东持股比例,如下图所示: 分析xhr请求 查看payload需要三个参数,但是非常简单哈,contenttype.jzrq非常简单,主要是stockid为 ...

  9. python财务报表分析-用Python爬取东方财富网上市公司财务报表

    ♚ 作者:苏克,零基础.转行python爬虫与数据分析 博客:https://www.makcyun.top 摘要: 现在很多网页都采取JavaScript进行动态渲染,其中包括Ajax技术.有的网页 ...

最新文章

  1. android源代码居中字体,Android (布局优化) TextView实现drawable图标大小 位置与第一行文本居中...
  2. 创建docker用户组并加入
  3. c#控制IE浏览器自动点击等事件WebBrowser,mshtml.IHTMLDocument2
  4. c# 连接Redis报错:WRONGTYPE Operation against a key holding the wrong kind of value:类型搞混弄出的错误...
  5. 音频处理一:(音频基本信息)
  6. 下周见| 重量级演讲阵容首曝光DTCC 2020阿里云议题抢鲜看
  7. java 的HashMap底层数据结构
  8. 为虚幻引擎4设置Visual Studio
  9. STB Reason: can‘t fopen
  10. Wannafly挑战赛19:C. 多彩的树(状压+容斥)
  11. [Codeforces 920E]Connected Components?
  12. java 求高精度幂_POJ 1001 求高精度幂【JAVA】
  13. vue-cli 安装
  14. 算法笔记-差分和前缀和
  15. thinkphp学习简易教程(一) thinkphp创建项目
  16. 密西西比河谷州立大学:Android应用程序开发(一)
  17. 漫谈中国数字电视标准的诞生
  18. Webpack:Loader学习—— Pitching Loader
  19. Kettle基本使用(四) —— 应用的使用
  20. 推荐9个适合Python开发的IDE。

热门文章

  1. CSS简单入门(一)
  2. 计算几何-求球冠体积
  3. 017 Rust死灵书之Drop标志
  4. linux快速查找系统库函数头文件:man命令
  5. Just another Robbery (概率DP)
  6. 青龙面板之九章油条(更新)
  7. 转载:区块链:关于软分叉与硬分叉以及什么是共识
  8. 四季靓汤—土茯苓乌龟汤
  9. devexpress xaf 相关
  10. 中山起湾周边学校有计算机吗,【趣味数据】乐有家:入学对口小区一直变?中山东区入学住哪里比较好...