import requests

import random

import time

import sys

import os

download_path= 'http://www.cninfo.com.cn/new/index'

saving_path= 'E://2019年报sz'

User_Agent= [

"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",

"Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",

"Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",

"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",

"Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",

"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",

"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0"

] #User_Agent的集合

headers= {'Accept': 'application/json, text/javascript, */*; q=0.01',

"Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",

"Accept-Encoding": "gzip, deflate",

"Accept-Language": "zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-HK;q=0.6,zh-TW;q=0.5",

'Host': 'www.cninfo.com.cn',

'Origin': 'http://www.cninfo.com.cn',

'Referer': 'http://www.cninfo.com.cn/new/commonUrl?url=disclosure/list/notice',

'X-Requested-With': 'XMLHttpRequest'

}

def single_page(page):

query_path= 'http://www.cninfo.com.cn/new/hisAnnouncement/query'

headers['User-Agent']= random.choice(User_Agent) #定义User_Agent

query= {'pageNum': page ,

'pageSize': 30,

'column': 'szse',

'tabName': 'fulltext',

'plate': 'sz',

'stock':'' ,

'searchkey':'' ,

'secid':'' ,

'category': 'category_ndbg_szsh',

'trade': '制造业',

'seDate': '2020-03-12~2020-09-13',

'sortName':'' ,

'sortType': '',

'isHLtitle': 'true',

}

namelist= requests.post(query_path,headers = headers,data = query)

print(page, '*********','\n',namelist.json()['announcements'])

return namelist.json()['announcements'] #json中的年度报告信息

def saving(single_page): #下载年报

try:

headers= {'Accept': 'application/json, text/javascript, */*; q=0.01',

"Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",

"Accept-Encoding": "gzip, deflate",

"Accept-Language": "zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-HK;q=0.6,zh-TW;q=0.5",

'Host': 'www.cninfo.com.cn',

'Origin': 'http://www.cninfo.com.cn'

}

for i in single_page:

if i['announcementTitle']== '2019年年度报告(更新后)' or i['announcementTitle']== '2019年年度报告':

download='http://www.cninfo.com.cn/new/announcement/download?bulletinId=' + i['announcementId']+'&announceTime='+i['adjunctUrl'][10:20]

name= i["secCode"]+ '_' + i['secName']+ '_' + i['announcementTitle']+ '.pdf'

if '*' in name:

name= name.replace('*','')

file_path= saving_path+ '//' + name

time.sleep(random.random()* 2)

headers['User-Agent']= random.choice(User_Agent)

r= requests.get(download,headers = headers)

f= open(file_path, "wb")

f.write(r.content)

f.close()

print(name)

else:

continue

except:

saving(single_page)

def spy_save(page):

try:

page_data = single_page(page)

except:

print(page,'page error, retrying')

try:

page_data= single_page(page)

except:

print(page,'page error')

saving(page_data )

if __name__ == '__main__':

for i in range(101):

page_data=spy_save(100)

python爬取上市公司年报信息_爬取巨潮资讯制造业公司年报数据相关推荐

  1. python3爬取巨潮资讯网的年报数据

    python3爬取巨潮资讯网的年报数据 前期准备: 需要用到的库: 完整代码: 前期准备: 巨潮资讯网有反爬虫机制,所以先打开巨潮资讯网的年报板块,看看有什么解决办法. 巨潮咨询年报板块 可以通过这样 ...

  2. 爬虫|巨潮资讯网上市公司年报爬取

    爬虫|巨潮资讯网上市公司年报爬取 import pandas as pd from selenium import webdriver from selenium.webdriver.common.k ...

  3. python3爬取巨潮资讯网站年报数据

    python3爬取巨潮资讯网站年报数据 2018年年底巨潮资讯http://www.cninfo.com.cn改版了,之前实习生从网上找的脚本不能用了,因此重新修改了下爬取脚本.最初脚本的原链接忘了, ...

  4. python3爬取数据_python3爬取巨潮资讯网站年报数据

    python3爬取巨潮资讯网站年报数据 2018年年底巨潮资讯http://www.cninfo.com.cn改版了,之前实习生从网上找的脚本不能用了,因此重新修改了下爬取脚本.最初脚本的原链接忘了, ...

  5. 基于python+selenium+Chrome自动化爬取巨潮资讯网A股财务报表

    转自同学的博客 引言: 网页爬虫分为静态网页爬虫和动态网页爬虫,前者是指索要获取的网页内容不需要经过js运算或者人工交互, 后者是指获取的内容必须要经过js运算或者人工交互.这里的js运算可能是aja ...

  6. python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例

    第一次写一个算是比较完整的爬虫,自我感觉极差啊,代码low,效率差,也没有保存到本地文件或者数据库,强行使用了一波多线程导致数据顺序发生了变化... 贴在这里,引以为戒吧. # -*- coding: ...

  7. selenium爬取巨潮资讯指定领域下所有上市公司的数据并存储到csv文件

    selenium爬取巨潮资讯指定领域下所有上市公司的数据并存储到csv文件 from selenium.webdriver import Chrome #引入selenium中的Chrome from ...

  8. 巧用selenium爬取巨潮资讯公司数据

    巧用selenium爬取巨潮资讯公司数据 立项背景:在做深度学习的过程中利用python进行建模,需要数据来训练模型. 项目目标:通过运用python的selenium模块,爬取巨潮资讯网站关于公司的 ...

  9. 批量爬取巨潮资讯网中“贵州茅台”相关公告的PDF文件。

    1 需求 批量爬取巨潮资讯网中"贵州茅台"相关公告的PDF文件. 2 代码实现 import reimport requests from selenium import webd ...

  10. node抓取58同城信息_如何使用标准库和Node.js轻松抓取网站以获取信息

    node抓取58同城信息 网络抓取工具是一种工具,可让我们选择网站的非结构化数据并将其转换为结构化数据库. 那么,网络刮板将在哪里派上用场呢? 我列出了我最喜欢的用例,以使您对启动自己的应用感到兴奋! ...

最新文章

  1. c语言关闭其他进程tcp_tcp链接迁移
  2. 【学术相关】你只看到了200万年薪的招聘,看不到被困校园的几十万博士
  3. 批量恢复文件的Py脚本
  4. dotNET:怎样处理程序中的异常(理论篇)?
  5. python-访问者模式
  6. IntelliJ IDEA中文乱码解决办法
  7. mysql数据存储和函数_MySQL数据库——存储和函数
  8. 苹果这个酷炫的项目要流产了?市场未爆发或成主因
  9. cdr如何制作图表?
  10. 支持了Unicode及各国字符集编码识别]改善IDA6.8对中文等非英语国家的ANSI字符串显示支持不佳的问题...
  11. oracle 求班级平均分
  12. 架构设计--用户端全http参数接口详细说明v1
  13. HBuilder开发APP(二)——网络请求
  14. C#调用海康威视人脸识别接口
  15. 一个毕业设计手机病毒软件查杀
  16. 【小白话通信】离散分布之间的关系
  17. Lambda表达详细介绍、全的不能全了!!
  18. 柴静《看见》读书笔记
  19. 佳文分享:我个人比较受用的一些习惯
  20. celery 停止_如何解决django-celery启动后迅速关闭

热门文章

  1. keycloak 的配置与ftl模板文件的表达式相互关联
  2. python小游戏————坦克大战
  3. Callnovo全球联络中心云通讯CRM平台系列(一)
  4. 《金山词霸2009 牛津版》插件工具加载
  5. VOIP技术与应用学习分享
  6. 梦雨百度网盘机器人好友群组消息自动回复软件(可用于自动发货场景)
  7. 写给0-3岁产品经理的第2封信:《产品经理的基本功——产品设计能力》
  8. 大数据人工智能时代的核心思维——数学建模
  9. Golang使用lxn/walk做GUI界面开发:邮件群发器
  10. tomcat发布网站的三种方式