巨潮网站爬虫程序修改

大概是16年写出的巨潮网站信息的爬虫程序。在昨天的程序日志里显示已经不能正常请求到数据了。

程序报错是：

java.net.ProtocolException: Server redirected too many  times (20)

地址被重定向了20次，程序直接退出。

后来查到论坛中有人提到：

“多半是重定向又回到原来的页面了. ”

网站做了一点反爬处理？

之前的请求如下:

POST
http://www.cninfo.com.cn/cninfo-new/announcement/queryPOST参数：
column=szse&&columnTitle=历史公告查询&pageNum=1&pageSize=30&tabName=fulltext&seDate=2018-01-10 ~ 2018-01-11

Content-Type：application/x-www-form-urlencoded

程序最开始写的时候没有写header信息，在原来的url请求函数中设置了UA属性

conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36");

程序再跑起来，还是最初的错误。到在线POST工具上去发送一次请求看什么情况：

提交后结果：

第一次正常返回了JSON(没有截到图），

第二次:

已经不是UA的问题了。

之后看到http://blog.csdn.net/qq_34670293/article/details/78041059 给出的解决方案

在请求之前加上一行代码

CookieHandler.setDefault(new CookieManager(null, CookiePolicy.ACCEPT_ALL));

请求成功了。

具体类使用方法和作用还在研究。

转载于:https://www.cnblogs.com/Jacck/p/8274656.html

巨潮网站爬虫程序修改相关推荐

python3爬取巨潮资讯网站年报数据
python3爬取巨潮资讯网站年报数据 2018年年底巨潮资讯http://www.cninfo.com.cn改版了,之前实习生从网上找的脚本不能用了,因此重新修改了下爬取脚本.最初脚本的原链接忘了, ...
爬虫|巨潮资讯网上市公司年报爬取
爬虫|巨潮资讯网上市公司年报爬取 import pandas as pd from selenium import webdriver from selenium.webdriver.common.k ...
python3爬取数据_python3爬取巨潮资讯网站年报数据
python3爬取巨潮资讯网站年报数据 2018年年底巨潮资讯http://www.cninfo.com.cn改版了,之前实习生从网上找的脚本不能用了,因此重新修改了下爬取脚本.最初脚本的原链接忘了, ...
python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例
第一次写一个算是比较完整的爬虫,自我感觉极差啊,代码low,效率差,也没有保存到本地文件或者数据库,强行使用了一波多线程导致数据顺序发生了变化... 贴在这里,引以为戒吧. # -*- coding: ...
python爬取上市公司套期保值公告（巨潮网）--使用Selenium方法
python爬虫爬取上市公司套期保值公告(巨潮网) 摘要巨潮资讯网的网页是通过JavaScript动态加载的,因此本文利用Selenium方法爬取该网站上市公司的套期保值公告. 主要技术路线: 1. ...
基于python+selenium+Chrome自动化爬取巨潮资讯网A股财务报表
转自同学的博客引言: 网页爬虫分为静态网页爬虫和动态网页爬虫,前者是指索要获取的网页内容不需要经过js运算或者人工交互, 后者是指获取的内容必须要经过js运算或者人工交互.这里的js运算可能是aja ...
ChatGPT炒股：从巨潮资讯网上批量下载特定主题的股票公告
巨潮资讯网是股票公告的指定披露渠道之一,上面有非常详细的A股股票公告内容. 现在,我们要获取2023-01-04~2023-07-04期间所有新三板公司中标题包含"2023年日常性关联交易& ...
迅雷API批量下载巨潮年报
目录说明年报筛选流程代码说明首先从巨潮页面用八爪鱼爬取公告链接列表,但是该链接指向页面还有一个下载按钮且链接无法在详情页对下载直接元素提取,索性链接之间有关系可以直接修改. 下载路径分开保存 ...
python3爬取巨潮资讯网的年报数据
python3爬取巨潮资讯网的年报数据前期准备: 需要用到的库: 完整代码: 前期准备: 巨潮资讯网有反爬虫机制,所以先打开巨潮资讯网的年报板块,看看有什么解决办法. 巨潮咨询年报板块可以通过这样 ...
巧用selenium爬取巨潮资讯公司数据
巧用selenium爬取巨潮资讯公司数据立项背景:在做深度学习的过程中利用python进行建模,需要数据来训练模型. 项目目标:通过运用python的selenium模块,爬取巨潮资讯网站关于公司的 ...

巨潮网站爬虫程序修改

巨潮网站爬虫程序修改相关推荐

最新文章

热门文章