代码:

import os
import requests
from selenium import webdriver
from bs4 import BeautifulSoup
import json
import timedef downloadFile(name, url):''':param name:下载保存的名称:param url: 下载链接:return:'''headers = {'Proxy-Connection': 'keep-alive'}r = requests.get(url, stream=True, headers=headers)length = float(r.headers['content-length'])f = open(name, 'wb')count = 0count_tmp = 0time1 = time.time()for chunk in r.iter_content(chunk_size=512):if chunk:f.write(chunk)count += len(chunk)if time.time() - time1 > 2:p = count / length * 100speed = (count - count_tmp) / 1024 / 1024 / 2count_tmp = countprint(name + ': ' + formatFloat(p) + '%' + ' Speed: ' + formatFloat(speed) + 'M/S')time1 = time.time()f.close()
def formatFloat(num):return '{:.2f}'.format(num)TEST_URL = 'http://bond.szse.cn/api/report/ShowReport/data?SHOWTYPE=JSON&CATALOGID=xmjdxx_xgmxq&xmbh=00016E654F13DC3FC876764A806D903F&type=1'#测试文档url
DD_URL = 'http://bond.szse.cn/api/report/ShowReport/data?SHOWTYPE=JSON&CATALOGID=xmjdxx_xgmxq&xmbh=00016BB6ACB8B13FE36774070621753F&type=1'
URL = 'http://bond.szse.cn/disclosure/bizinfo/progressinfo/index.html'
DOWNLOAD_SPICE_URL = 'http://reportdocs.static.szse.cn' #下载需要拼接的字符串
REPORT_SPICE_URL = 'http://bond.szse.cn/api/report' # 报道拼接字符串
PAGE_SEARCH_URL = 'http://bond.szse.cn/api/report/ShowReport/data?SHOWTYPE=JSON&CATALOGID=xmjdxx&TABKEY=tab2&PAGENO=' #查询页面拼接字符串 PAGENO为页面序号def getCompanyUrl(url):res = requests.get(url)res.encoding = 'utf8'res_json = res.json()[0]items = res_json.items()for key, value in items:if str(key).strip() == 'data':for i in range(0, len(value)):val = value[i]['zqmc']val_sp = val.split('a-param=')doc_url =REPORT_SPICE_URL + val_sp[1].split('>')[0].replace("'", '')print(doc_url)def getDownloadDocUrl(url):res = requests.get(url)res.encoding = 'utf8'res_json = res.json()[2]items = res_json.items()for key, value in items:if str(key).strip() == 'data':if len(value) > 0:for li in range(0,len(value)):a_link_str = str(value[li]['fkyjh'])link_url = a_link_str.split('encode-open=')[1].split('>')[0].replace("'","")download_url = DOWNLOAD_SPICE_URL + link_urldown_name = download_url.split('/')[len(download_url.split('/'))-1]downloadFile(down_name,download_url)if __name__ == '__main__':f = open('docdown.txt')for line in f:str_line = line.strip()getDownloadDocUrl(str_line)

Python爬虫项目---批量下载深圳证券信息相关推荐

  1. Python爬虫项目--批量下载联合国粮食数据

    代码如下: # 爬取国家粮食数据 import os import time import requestsSPICE_URL = 'https://comtrade.un.org/api/get?t ...

  2. python爬虫实现批量下载百度图片

    今天和小伙伴们合作一个小项目,需要用到景点图片作为数据源,在百度上搜索了一些图片,感觉一个一个手动保存太过麻烦,于是想到用爬虫来下载图片. 本次代码用到了下列一些python模块,需要预先安装Beau ...

  3. python爬虫+ffmpeg批量下载ts文件,解密合并成mp4

    标题 python爬虫+ffmpeg批量下载ts文件,解密合并成mp4 文章目录 标题 前言 一.分析目标 二.寻找url规律 三.写代码 总结 前言 (第一次写博客,写的不好请见谅哈~~) 目标是大 ...

  4. Python爬虫项目---批量从搜款网下载主图、颜色图详情图

    代码如下: #Description:批量下载搜款网 #Author:ytouch #使用方式 #现在是支持两种:一种是批量,一种是单个 #使用方法: #在main方式中 # 调用singleUrlD ...

  5. 爬虫案例:利用python爬虫关键词批量下载高清大图

    环境: python3+pycharm+requests+re+BeatifulSoup+json 这个确实也属实有一些勉强,不少童鞋私信问我有木有 下载大图 的源码,我说可能会有,现在分享给大家. ...

  6. 利用python爬虫关键词批量下载高清大图!

    前言 在上一篇 写文章没高质量配图?python爬虫绕过限制一键搜索下载图虫创意图片 !中,我们在未登录的情况下实现了图虫创意 无水印高清小图 的批量下载.虽然小图能够在一些移动端可能展示的还行,但是 ...

  7. Python爬虫实战批量下载高清美女图片,男生最爱的案例吧!

    彼岸图网站里有大量的高清图片素材和壁纸,并且可以免费下载,读者也可以根据自己需要爬取其他类型图片,方法是类似的,本文通过python爬虫批量下载网站里的高清美女图片,熟悉python写爬虫的基本方法: ...

  8. 爬虫python创意_爬虫案例:利用python爬虫关键词批量下载高清大图

    环境: python3+pycharm+requests+re+BeatifulSoup+json 这个确实也属实有一些勉强,不少童鞋私信问我有木有 下载大图 的源码,我说可能会有,现在分享给大家. ...

  9. Python爬虫项目--批量爬取公司债券平台网公司信息并下载PDF

    # 下载公司债券平台项目PDF信息 08年6月 合起来67页数据import os import time import requests from selenium import webdriver ...

最新文章

  1. 算法-二分搜索-找出最大值和最小值
  2. 一文理解设计模式之--策略模式(Strategy)
  3. Dom4j解析Xml文件,Dom4j创建Xml文件
  4. 【干货】如何判断 Sql 注入点
  5. mysql 交叉表行转列_Oracle行转列、列转行的Sql语句总结
  6. ansys linux卸载干净,安装了几次ansys14.5,都没有成功,删除重新安装后许可安装不了了...
  7. 网络程序设计课程总结
  8. Android五大数据存储
  9. 怎么看计算机配件型号,如何看硬件参数
  10. 移动端vue+vant+高德地图实现拖拽选址,周边选址,搜索选址,自动定位,选择城市功能,获取地址经纬度,详细地址
  11. web兼容性测试 _ Web测试指南(四)
  12. 啊哈C——学习3.5一起来找茬
  13. Random Walk(随机游走)
  14. 1加到100用python实现
  15. Linux 命令随笔
  16. HTTP头相关的材料
  17. Kernel 4.9的BBR拥塞控制算法与锐速
  18. 下载淘宝教育视频的方法
  19. Leetcode 每日一题——649. Dota2 参议院
  20. GASSHOW:野田洋次郎为东日本大地震丧生的罹难者所创的镇魂曲。

热门文章

  1. Springboot 配置文件、隐私数据脱敏的最佳实践(原理+源码)
  2. Linux系统学习:目录结构和文件管理指令
  3. SQLServer之深度分析跟踪
  4. .net WebApi 批量文件进行压缩zip以二进制流传输至前端(Vue)下载
  5. Linux 查看磁盘容量、查找大文件、查找大目录
  6. 深度解读GoogleNet之Inception 系列
  7. redis和mecache和ehcache的特点
  8. 汇编语言DOSBox软件使用方法
  9. AC日记——最小路径覆盖问题 洛谷 P2764
  10. SQL开发技巧(二) 【转】感觉他写的很好