python批量下载巨潮PDF年报
目录标题
- 背景
- 代码块
背景
(70条消息) 迅雷API批量下载巨潮年报_无敌的前任的博客-CSDN博客
代码块
from win32com.client import Dispatch
#pip install win32compat
#pip install pywin32
import os
import re
import openpyxl
import requests
import urllib.request
import time
def download(url, downpath,filename,i):if filename in os.listdir(downpath):print(str(i)+"th already there")returnfile_path=downpath+'\\'+filenameuser_agent = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}request = urllib.request.Request(url, headers=user_agent)#response = urllib.request.urlopen(request)response = requests.get(url, headers=user_agent)f = open(file_path, 'wb')f.write(response.content)#response对象数据存储f.close()print(str(i)+'th is done')
def code_revise(code_cell):code=(code_cell.value)code=str(code)#用value就是数值,text不能用for i in range(1,6-len(code)+1):code='0'+codereturn code
def url_revise(url):#普通命令str.replace(old, new[, max])#old --将被替换的子字符串。.new --新字符串,用于替换old子字符串。max --可选字符串,替换不超过max次#re.sub(pattern, repl, string, count=0, flags=0)#参数含义依次为旧字符正则匹配式、新子串、原文、次数默认全部替换#print("url1:" + url)old1=re.compile(r'disclosure/detail\?stockCode=\d+&announcementId')old2=re.compile(r'orgId=\w+\d+&announcementTime')new1='announcement/download?bulletinId'new2='announceTime'url=re.sub(old1,new1,url)url = re.sub(old2, new2, url)#print("url2:"+url)return url
#input= r'E:\huang\Documents'
input= r'E:\huang\Documents\其他行业'
os.chdir(input)
downpath=r'E:\Alark\Users\Desktop\年报\2015\其他'
downlist='2015-2016年其他行业.xlsx'
wb = openpyxl.load_workbook(downlist)
ws = wb.active
#active_sheet = wb.active
i=1
for row in ws.rows:if row[0].value==None:#print("row[0]:",row[0].value)breakelse:pass#print(code_revise(row[0]),row[2].value)filename=code_revise(row[0])+'_'+row[2].value+'.pdf'url=url_revise(row[4].value)i=i+1download(url, downpath, filename,i)
wb.save("cache.xlsx")
python批量下载巨潮PDF年报相关推荐
- 迅雷API批量下载巨潮年报
目录 说明 年报筛选流程 代码 说明 首先从巨潮页面用八爪鱼爬取公告链接列表,但是该链接指向页面还有一个下载按钮且链接无法在详情页对下载直接元素提取,索性链接之间有关系可以直接修改. 下载路径分开保存 ...
- Python批量下载上交所、深交所年报或半年报并生成年报下载器exe文件
效果预览 完整代码 import requests import csv import time import re import math import osSTART_DATE =input('公 ...
- python怎么批量下载年报_使用Python批量下载Wind数据库中的PDF报告
原标题:使用Python批量下载Wind数据库中的PDF报告 背景 最近小编出于工作需要,准备在Wind金融数据终端批量下载上市公司2019年第一季度业绩预告.通过相关的条件检索,发现其相关数据有近百 ...
- python 批量下载财务数据_Python+Wind 批量下载上市公司年报 - Part 1/2
Python+Wind 批量下载上市公司年报 - Part 1/2作者:张捷 目录1.背景介绍 2.安装Python 3.爬取万得上市公司年报3.1Wind下载公告信息 3.2获得年报地址 4.使用P ...
- Python 批量下载SIGMOD,VLDB的论文 Mac OS
这里写自定义目录标题 Python 批量下载SIGMOD,VLDB的论文 Mac OS 实现 0.要爬取的网站 1.下载单篇论文 2.获得所有论文的链接 完整代码 Python 批量下载SIGMOD, ...
- 半自动化批量下载专利全文pdf傻瓜攻略
半自动化批量下载专利全文pdf傻瓜攻略 写在前面 适合人群 使用前提 基本思路 键鼠记录器脚本 前期准备 脚本原理 注意事项 检查下载效果 写在前面 整理专利的时候,在专利引擎上只能一条条的下载,很是 ...
- python批量下载公众号历史文章(一)
[新地址] Rabbit & Bear[半自动版]python批量下载公众号历史文章(一) | Rabbit & Bear (unclevicky.github.io) [背景] 原博 ...
- python下载网页里面所有的图片-Python批量下载网页图片详细教程
很多朋友在网上查找批量下载图片的方法~发觉挺凌乱的,无从下手.这里绿茶小编就来跟大家分享下使用Python批量下载图片方法. 目标:爬取某个网站上n多页的链接,每个链接有n多张图片,每一页对应一个文件 ...
- 群里又会python的吗_自从会了Python在群里斗图就没输过,Python批量下载表情包!...
原标题:自从会了Python在群里斗图就没输过,Python批量下载表情包! 导语 最近图慌,于是随便写了个表情包批量下载的脚本,没什么技术含量,纯娱乐性质. 让我们愉快地开始吧~ 开发工具 Pyth ...
最新文章
- SQLite简易入门
- android布局如何空行,借用你的思路和框架,修复了空行、偶尔setText无效、padding设置的bug...
- 数仓 调度_网易实时数仓实践
- 每天学一点儿shell:猜数字游戏
- Windows server 2008R2本地组与本地用户的创建和管理
- C语言试题六十七之请编写函数实现水仙花数
- 明日之后怎么跳过实名认证_明日之后宝箱达人活动怎么玩 明日之后宝箱达人可以开箱多少次...
- 开发大型高负载类网站应用的几个要点
- C语言程序设计学习总结
- python做excel数据分析统计服_怎样用 Excel 做数据分析?
- AI绘图第二弹!绘制专属动漫头像
- [人工智能-深度学习-4]:数据流图与正向传播、动态图与静态图
- nodejs使用Moment.js操作日期时间
- AD domain 环境下VBS自动生成邮件签名
- SpringCloud-Gataway网关的使用
- 超详细的RS232/RS485电路设计
- ZZULIOJ:1123:最佳校友
- html idv垂直居中,1.2.7 Excel表格打印技巧
- 瞬变电磁matlab,基于Matlab的矿井瞬变电磁超前探测三维显示技术
- Concur牵手滴滴企业版,企业级软件+互联网服务可以复制吗?
热门文章
- 【以终为始,与梦同行】致那些努力奔跑的人
- 网易云音视频多人通话webRTC的实现(接)。
- Flowable-6.6.0 工作流引擎(windows平台zip包)下载
- python保存dat文件_用Python解析.DAT文件
- 【Bug(未解决)】正在连接servername...无法打开到主机的连接。 在端口 25: 连接失败
- 英语四级考前核心词汇【1】
- 在同一Android应用程序内,信息安全技术题库:Android中同一个应用程序的所有进程可以属于不同用户。()...
- VScode latex 写作小结
- [LUOGU] P4363 [九省联考2018]一双木棋chess
- echarts 地图上边画柱状图