Python爬虫项目---批量下载深圳证券信息
代码:
import os
import requests
from selenium import webdriver
from bs4 import BeautifulSoup
import json
import timedef downloadFile(name, url):''':param name:下载保存的名称:param url: 下载链接:return:'''headers = {'Proxy-Connection': 'keep-alive'}r = requests.get(url, stream=True, headers=headers)length = float(r.headers['content-length'])f = open(name, 'wb')count = 0count_tmp = 0time1 = time.time()for chunk in r.iter_content(chunk_size=512):if chunk:f.write(chunk)count += len(chunk)if time.time() - time1 > 2:p = count / length * 100speed = (count - count_tmp) / 1024 / 1024 / 2count_tmp = countprint(name + ': ' + formatFloat(p) + '%' + ' Speed: ' + formatFloat(speed) + 'M/S')time1 = time.time()f.close()
def formatFloat(num):return '{:.2f}'.format(num)TEST_URL = 'http://bond.szse.cn/api/report/ShowReport/data?SHOWTYPE=JSON&CATALOGID=xmjdxx_xgmxq&xmbh=00016E654F13DC3FC876764A806D903F&type=1'#测试文档url
DD_URL = 'http://bond.szse.cn/api/report/ShowReport/data?SHOWTYPE=JSON&CATALOGID=xmjdxx_xgmxq&xmbh=00016BB6ACB8B13FE36774070621753F&type=1'
URL = 'http://bond.szse.cn/disclosure/bizinfo/progressinfo/index.html'
DOWNLOAD_SPICE_URL = 'http://reportdocs.static.szse.cn' #下载需要拼接的字符串
REPORT_SPICE_URL = 'http://bond.szse.cn/api/report' # 报道拼接字符串
PAGE_SEARCH_URL = 'http://bond.szse.cn/api/report/ShowReport/data?SHOWTYPE=JSON&CATALOGID=xmjdxx&TABKEY=tab2&PAGENO=' #查询页面拼接字符串 PAGENO为页面序号def getCompanyUrl(url):res = requests.get(url)res.encoding = 'utf8'res_json = res.json()[0]items = res_json.items()for key, value in items:if str(key).strip() == 'data':for i in range(0, len(value)):val = value[i]['zqmc']val_sp = val.split('a-param=')doc_url =REPORT_SPICE_URL + val_sp[1].split('>')[0].replace("'", '')print(doc_url)def getDownloadDocUrl(url):res = requests.get(url)res.encoding = 'utf8'res_json = res.json()[2]items = res_json.items()for key, value in items:if str(key).strip() == 'data':if len(value) > 0:for li in range(0,len(value)):a_link_str = str(value[li]['fkyjh'])link_url = a_link_str.split('encode-open=')[1].split('>')[0].replace("'","")download_url = DOWNLOAD_SPICE_URL + link_urldown_name = download_url.split('/')[len(download_url.split('/'))-1]downloadFile(down_name,download_url)if __name__ == '__main__':f = open('docdown.txt')for line in f:str_line = line.strip()getDownloadDocUrl(str_line)
Python爬虫项目---批量下载深圳证券信息相关推荐
- Python爬虫项目--批量下载联合国粮食数据
代码如下: # 爬取国家粮食数据 import os import time import requestsSPICE_URL = 'https://comtrade.un.org/api/get?t ...
- python爬虫实现批量下载百度图片
今天和小伙伴们合作一个小项目,需要用到景点图片作为数据源,在百度上搜索了一些图片,感觉一个一个手动保存太过麻烦,于是想到用爬虫来下载图片. 本次代码用到了下列一些python模块,需要预先安装Beau ...
- python爬虫+ffmpeg批量下载ts文件,解密合并成mp4
标题 python爬虫+ffmpeg批量下载ts文件,解密合并成mp4 文章目录 标题 前言 一.分析目标 二.寻找url规律 三.写代码 总结 前言 (第一次写博客,写的不好请见谅哈~~) 目标是大 ...
- Python爬虫项目---批量从搜款网下载主图、颜色图详情图
代码如下: #Description:批量下载搜款网 #Author:ytouch #使用方式 #现在是支持两种:一种是批量,一种是单个 #使用方法: #在main方式中 # 调用singleUrlD ...
- 爬虫案例:利用python爬虫关键词批量下载高清大图
环境: python3+pycharm+requests+re+BeatifulSoup+json 这个确实也属实有一些勉强,不少童鞋私信问我有木有 下载大图 的源码,我说可能会有,现在分享给大家. ...
- 利用python爬虫关键词批量下载高清大图!
前言 在上一篇 写文章没高质量配图?python爬虫绕过限制一键搜索下载图虫创意图片 !中,我们在未登录的情况下实现了图虫创意 无水印高清小图 的批量下载.虽然小图能够在一些移动端可能展示的还行,但是 ...
- Python爬虫实战批量下载高清美女图片,男生最爱的案例吧!
彼岸图网站里有大量的高清图片素材和壁纸,并且可以免费下载,读者也可以根据自己需要爬取其他类型图片,方法是类似的,本文通过python爬虫批量下载网站里的高清美女图片,熟悉python写爬虫的基本方法: ...
- 爬虫python创意_爬虫案例:利用python爬虫关键词批量下载高清大图
环境: python3+pycharm+requests+re+BeatifulSoup+json 这个确实也属实有一些勉强,不少童鞋私信问我有木有 下载大图 的源码,我说可能会有,现在分享给大家. ...
- Python爬虫项目--批量爬取公司债券平台网公司信息并下载PDF
# 下载公司债券平台项目PDF信息 08年6月 合起来67页数据import os import time import requests from selenium import webdriver ...
最新文章
- 算法-二分搜索-找出最大值和最小值
- 一文理解设计模式之--策略模式(Strategy)
- Dom4j解析Xml文件,Dom4j创建Xml文件
- 【干货】如何判断 Sql 注入点
- mysql 交叉表行转列_Oracle行转列、列转行的Sql语句总结
- ansys linux卸载干净,安装了几次ansys14.5,都没有成功,删除重新安装后许可安装不了了...
- 网络程序设计课程总结
- Android五大数据存储
- 怎么看计算机配件型号,如何看硬件参数
- 移动端vue+vant+高德地图实现拖拽选址,周边选址,搜索选址,自动定位,选择城市功能,获取地址经纬度,详细地址
- web兼容性测试 _ Web测试指南(四)
- 啊哈C——学习3.5一起来找茬
- Random Walk(随机游走)
- 1加到100用python实现
- Linux 命令随笔
- HTTP头相关的材料
- Kernel 4.9的BBR拥塞控制算法与锐速
- 下载淘宝教育视频的方法
- Leetcode 每日一题——649. Dota2 参议院
- GASSHOW:野田洋次郎为东日本大地震丧生的罹难者所创的镇魂曲。