“没有枪没有炮我们给自己造。”

—— 周书人

昨天开组会的时候导师说想搞年报问询函的研究,但是买数据库太贵了。我说放着我来 ( ‵▽′)ψ。

文章目录

  • 一、任务描述
  • 二、解决思路
  • 三、网页分析
    • 1. 数据包位置
    • 2. 翻页
    • 3. 下载PDF
    • 4. 深交所网页和上交所网页的区别
  • 四、PDF转TXT
  • 五、核心代码
    • 1. 获取上交所问询函列表
    • 2. 爬取PDF并直接转为TXT
    • 3. 遍历文件夹中所有TXT和DOC文件并生成列表
  • 六、最终爬取结果
  • 主要参考链接

一、任务描述

  • 分别从上交所和深交所的官网上爬取年报问询函的记录

二、解决思路

  • 解析网页获取全部的年报问询函列表及相应的文件链接
  • 打开第一步获取的文件链接,读取 PDF 数据,并直接转成 TXT 格式的文字

三、网页分析

以上交所网站为例:

1. 数据包位置

上交所的年报问询列表存储在响应的一个 JSON 文件里,只要用 Python3 发送请求并截取这个 JSON 包就可以直接获取该页的列表啦。

2. 翻页

由于网站结构简单,所以翻页也很好实现。对比第一页的参数和第二页的参数可以发现:翻页的关键在于 pageHelp.pageNopageHelp.beginPage 这两个参数上,所以虽然一共有 88 页的问询函,只要每次 post 不同的页数就可以得到相应的页面。

3. 下载PDF

通过前两步的分析我们已经拿到了上交所问询函的所有列表:

显然上交所网站里已经直接给出了每个问询函 PDF 的下载链接(即表格最后一列),直接打开这个链接就可以读取保存相应的问询函。

4. 深交所网页和上交所网页的区别

深交所网站比较好的是直接给出了问询函列表并且同时给出了函件内容和公司回复文档的文件编码:

举个栗子:加入函件内容的文件编码是 CDD00080753986.pdf ,那么给这个编码套上外衣就是可以打开的 PDF 地址了:
http://reportdocs.static.szse.cn/UpFiles/fxklwxhj/ + 文件编码+ ?random=0.42680171432249325
最后得到的URL地址为:http://reportdocs.static.szse.cn/UpFiles/fxklwxhj/CDD00080753986.pdf?random=0.42680171432249325
小伙伴们可以试试打开是不是正确的问询函件。

四、PDF转TXT

Python3 里用经典的 Pdfminer3k 包即可解决,这里直接改了大佬的代码ᕕ( ᐛ )ᕗ:Pythonscrapy的简书:python3 在线读取pdf

五、核心代码

1. 获取上交所问询函列表

本来应该规规矩矩地用 Requests 包的 post 方法上传参数的,但是我太懒了啊哈哈哈就直接迭代了丑丑的 URL。

import requestsdef downlourl(currentpage):url = "http://query.sse.com.cn/commonSoaQuery.do?siteId=28&sqlId=BS_GGLL&extGGLX=&stockcode=&channelId=10743%2C10744%2C10012&extGGDL=&order=createTime%7Cdesc%2Cstockcode%7Casc&isPagination=true&pageHelp.pageSize=15&pageHelp.pageNo=" + repr(currentpage) + "&pageHelp.beginPage=" + repr(currentpage) +"&pageHelp.cacheSize=1"return(url)headers = {'Referer':'http://www.sse.com.cn/disclosure/credibility/supervision/inquiries/','User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}with open('上交所列表.txt',"a") as f:for page in range(89):r = requests.get(downlourl(page), headers=headers)for i in r.json()['result']:f.write('\t''.join([i['cmsOpDate'],i['docTitle'],i['stockcode'],i['extWTFL'],i['extGSJC'],i['docType'],i['createTime'],i['docURL']])+'\n')print('完成爬取第%d页'%page)

2. 爬取PDF并直接转为TXT

import pandas as pd
import time
from urllib.request import urlopen
from urllib.request import Request
from urllib.request import quote
import requests
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
from pdfminer.pdfparser import PDFParser, PDFDocumentdata = pd.read_table('/Users/mengjiexu/深交所回复列表.txt',header=None,encoding='utf8',delim_whitespace=True)
data.columns=['函件编码','函件类型']函件编码 = data.loc[:,'函件编码']
函件类型 = data.loc[:,'函件类型']headers = {'content-type': 'application/json','Accept-Encoding': 'gzip, deflate','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0'}baseurl = "http://reportdocs.static.szse.cn/UpFiles/fxklwxhj/"def parse(docucode):# 打开在线PDF文档_path = baseurl + quote(docucode) +"?random=0.3006649122149502"request = Request(url=_path, headers=headers)  # 随机从user_agent列表中抽取一个元素fp = urlopen(request)# 读取本地文件# path = './2015.pdf'# fp = open(path, 'rb')# 用文件对象来创建一个pdf文档分析器praser_pdf = PDFParser(fp)# 创建一个PDF文档doc = PDFDocument()# 连接分析器 与文档对象praser_pdf.set_document(doc)doc.set_parser(praser_pdf)# 提供初始化密码doc.initialize("123456")# 如果没有密码 就创建一个空的字符串doc.initialize()# 检测文档是否提供txt转换,不提供就忽略if not doc.is_extractable:raise PDFTextExtractionNotAllowedelse:# 创建PDf资源管理器 来管理共享资源rsrcmgr = PDFResourceManager()# 创建一个PDF参数分析器laparams = LAParams()# 创建聚合器device = PDFPageAggregator(rsrcmgr, laparams=laparams)# 创建一个PDF页面解释器对象interpreter = PDFPageInterpreter(rsrcmgr, device)# 循环遍历列表,每次处理一页的内容# doc.get_pages() 获取page列表for page in doc.get_pages():# 使用页面解释器来读取interpreter.process_page(page)# 使用聚合器获取内容layout = device.get_result()# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性,for out in layout:# 判断是否含有get_text()方法,图片之类的就没有# if ``hasattr(out,"get_text"):docname = "/Users/mengjiexu/罗党论/年报问询函/深交所回复/"+str(docucode).split('.')[0]+'.txt'with open(docname,'a') as f:if isinstance(out, LTTextBoxHorizontal):results = out.get_text()print(results)f.write(results)for i in range(len(函件编码)):函件名称 = (函件编码[i] + '.' + 函件类型[i])print(函件名称)开始爬取时间 = "这是第%d个公告"%iprint(开始爬取时间)print(time.strftime('%Y.%m.%d.%H:%M:%S',time.localtime(time.time())))if 函件类型[i]=="pdf":parse(函件名称)print(函件名称 + "爬取成功")else:with open("/Users/mengjiexu/深交所回复/%s"%函件名称,'wb') as f:_path = baseurl + quote(函件名称) +"?random=0.3006649122149502"request = requests.get(url=_path, headers=headers)  # 随机从user_agent列表中抽取一个元素f.write(request.content)结束爬取时间 = time.strftime('%Y.%m.%d.%H:%M:%S', time.localtime(time.time()))print(结束爬取时间)print("第%d个公告爬取完成" % i)

3. 遍历文件夹中所有TXT和DOC文件并生成列表

参考了 Lynn大神的博客 |・ω・`)

import os
import docx2txt
from openpyxl import Workbookcontent_list = []wb = Workbook()
sheet = wb.active
sheet['A1'].value = '公告编码'
sheet['A2'].value = '公告内容'def readdocx(filepath):content = docx2txt.process(filepath)  #打开传进来的路径docucode = filepath.split('/')[-1]content_list.append([docucode.split('.')[0],content])content_list.append([docucode.split('.')[0],content])def readtxt(filepath):content = open(filepath, "r").read()     #打开传进来的路径docucode = filepath.split('/')[-1]content_list.append([docucode.split('.')[0],content])def eachFile(filepath):pathDir = os.listdir(filepath) #获取当前路径下的文件名,返回Listfor s in pathDir:newDir=os.path.join(filepath,s)#将文件命加入到当前文件路径后面if os.path.isfile(newDir) :         #如果是文件doctype = os.path.splitext(newDir)[1]if doctype == ".txt":  #判断是否是txtreadtxt(newDir)elif doctype == ".docx":readdocx(newDir)else:passelse:eachFile(newDir) #如果不是文件,递归这个文件夹的路径eachFile("/Users/上交所txt/")
a = 1
for doc in content_list:sheet['A%d'%a].value = doc[0]print(doc[0])sheet['B%d'%a].value = doc[1]a += 1
wb.save('上交所问询函.xlsx')

六、最终爬取结果

主要参考链接

  1. https://www.cnblogs.com/SeekHit/p/6245283.html
  2. http://www.imooc.com/wenda/detail/432379
  3. https://www.jianshu.com/p/42caf169764b

6小时爬完上交所和深交所的年报问询函相关推荐

  1. Python:6小时爬完上交所和深交所的年报问询函

    原文链接:https://www.lianxh.cn/news/0e57c635cd225.html 目录 一.任务描述 二.解决思路 三.网页分析 1. 数据包位置 2. 翻页 3. 下载PDF 4 ...

  2. 爬取上交所和深交所的年报问询函到Excel

    注意事项 需要安装一些包,如pdfminer.pdfminer3k.pdfplumber等: pdfminer不能解析上交所问询函,使用解析功能更为强大的pdfplumber可以解析,但是内容上可能会 ...

  3. 三小时爬取四万份年报

    三小时爬取四万份年报 本文爬虫的任务提交速度以及下载速度: 年报文本分析 如果你有年报文本分析需求,首先你就要获取上市公司年报 关于上市公司年报的爬虫已经有很多篇了,如下: <30行代码轻松爬取 ...

  4. 使用Python爬取上交所问询函并查询相关股票发函日股价

    目录 前言 准备工作 json包的抓取 获取其他页数的数据 查询股价接口 代码编写 遍历爬取所有问询函 查询被发函公司发函日(第T日)后3天的股价 总结 参考 前言 最近实习需要做一些关于问询函的研究 ...

  5. 2021天梯赛L1-074 两小时学完C语言 题解

    L1-074 两小时学完C语言 (5 分) 题目: 知乎上有个宝宝问:"两个小时内如何学完 C 语言?"当然,问的是"学完"并不是"学会". ...

  6. 使用Python爬虫获取上交所和深交所所有股票的名称和交易信息

    使用Python爬虫获取上交所和深交所所有股票的名称和交易信息 功能描述 目标 获取上交所和深交所所有股票的名称和交易信息 输出 保存到文件中 技术路线 requests-bs4-re 候选数据网站的 ...

  7. 深交所向华谊兄弟发问询函:是否存在对本期业绩“大洗澡”

    [TechWeb]2月1日消息,深交所向华谊兄弟发布问询函,要求说明 2018 年第四季度业绩大幅亏损的原因,2018年第四季度业绩大幅亏损的原因以及是否存在利用计提减值准备对本期业绩进行" ...

  8. python3爬取巨潮资讯网站年报数据

    python3爬取巨潮资讯网站年报数据 2018年年底巨潮资讯http://www.cninfo.com.cn改版了,之前实习生从网上找的脚本不能用了,因此重新修改了下爬取脚本.最初脚本的原链接忘了, ...

  9. python3爬取数据_python3爬取巨潮资讯网站年报数据

    python3爬取巨潮资讯网站年报数据 2018年年底巨潮资讯http://www.cninfo.com.cn改版了,之前实习生从网上找的脚本不能用了,因此重新修改了下爬取脚本.最初脚本的原链接忘了, ...

最新文章

  1. R语言NaN函数实战(计数、替换、删除)
  2. 数学知识-- 信赖域(Trust Region)算法是怎么一回事
  3. torch distributed 多GPU训练笔记
  4. python单例_Python - 单例模式(Singleton)
  5. [蓝桥杯][算法提高VIP]开灯游戏-dfs
  6. java的classpath
  7. 当你用浏览器打开一个链接的时候,计算机做了哪些工作
  8. 由SGA组件内存移动导致前台业务超时问题处理过程
  9. iPhone 13高端版所需120Hz刷新率屏幕或将由三星独家供应
  10. Linux基础学习(5)
  11. Windows下VB6.0开发——关于String类型数据的思考
  12. JSP 页面实现一个计算器功能
  13. 天涯明月刀如何修改登录服务器,天涯明月刀手游体验服和正式服怎么切换方法介绍...
  14. 松下服务器没显示,松下Panasonic伺服驱动器没有显示维修
  15. Jmeter 调用python3脚本
  16. 一位五年工作经验架构师的感悟
  17. AutoMapper Project To OrderBy Skip Take 正确写法
  18. 2022年全球市场旋转压片机总体规模、主要生产商、主要地区、产品和应用细分研究报告
  19. SQL84 实习广场投递简历分析(一)
  20. 利用Vector CANOE/CANalyzer的系统变量System Variables观察CAN信号之间的关系

热门文章

  1. pve远程连接 spcie_用Proxmox搞定gpu穿透
  2. android studio 升级最新版本后Lombok 插件提示版本太旧,项目爆红
  3. DPInst exe
  4. java开发速成班培训课程(6)
  5. 2019河南理工大学计算机类分数线,2021河南理工大学研究生分数线一览表(含2019 2020历年复试分数线)...
  6. 通俗易懂的理解 python 装饰器
  7. ipad分屏功能_iPad Pro2020新功能,附几个 iPad 系列使用小技巧
  8. 电脑开机突然变得很慢?是机器老化么?你该了解了解这些了
  9. 2023-06-07 LeetCode每日一题(老鼠和奶酪)
  10. 最强斗图表情包小程序,让你斗图永不落败