大概是16年写出的巨潮网站信息的爬虫程序。在昨天的程序日志里显示已经不能正常请求到数据了。

程序报错是:

java.net.ProtocolException: Server redirected too many  times (20)

  

地址被重定向了20次,程序直接退出。

后来查到论坛中有人提到:

“多半是重定向又回到原来的页面了.  ”

网站做了一点反爬处理?

之前的请求如下:

POST
http://www.cninfo.com.cn/cninfo-new/announcement/queryPOST参数:
column=szse&&columnTitle=历史公告查询&pageNum=1&pageSize=30&tabName=fulltext&seDate=2018-01-10 ~ 2018-01-11
Content-Type:application/x-www-form-urlencoded

  

程序最开始写的时候没有写header信息,在原来的url请求函数中设置了UA属性

conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36");

  

程序再跑起来,还是最初的错误。到在线POST工具上去发送一次请求看什么情况:

提交后结果:

第一次正常返回了JSON(没有截到图),

第二次:

已经不是UA的问题了。

之后看到http://blog.csdn.net/qq_34670293/article/details/78041059 给出的解决方案

在请求之前加上一行代码

CookieHandler.setDefault(new CookieManager(null, CookiePolicy.ACCEPT_ALL));

  

请求成功了。

具体类使用方法和作用还在研究。

转载于:https://www.cnblogs.com/Jacck/p/8274656.html

巨潮网站爬虫程序修改相关推荐

  1. python3爬取巨潮资讯网站年报数据

    python3爬取巨潮资讯网站年报数据 2018年年底巨潮资讯http://www.cninfo.com.cn改版了,之前实习生从网上找的脚本不能用了,因此重新修改了下爬取脚本.最初脚本的原链接忘了, ...

  2. 爬虫|巨潮资讯网上市公司年报爬取

    爬虫|巨潮资讯网上市公司年报爬取 import pandas as pd from selenium import webdriver from selenium.webdriver.common.k ...

  3. python3爬取数据_python3爬取巨潮资讯网站年报数据

    python3爬取巨潮资讯网站年报数据 2018年年底巨潮资讯http://www.cninfo.com.cn改版了,之前实习生从网上找的脚本不能用了,因此重新修改了下爬取脚本.最初脚本的原链接忘了, ...

  4. python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例

    第一次写一个算是比较完整的爬虫,自我感觉极差啊,代码low,效率差,也没有保存到本地文件或者数据库,强行使用了一波多线程导致数据顺序发生了变化... 贴在这里,引以为戒吧. # -*- coding: ...

  5. python爬取上市公司套期保值公告(巨潮网)--使用Selenium方法

    python爬虫爬取上市公司套期保值公告(巨潮网) 摘要 巨潮资讯网的网页是通过JavaScript动态加载的,因此本文利用Selenium方法爬取该网站上市公司的套期保值公告. 主要技术路线: 1. ...

  6. 基于python+selenium+Chrome自动化爬取巨潮资讯网A股财务报表

    转自同学的博客 引言: 网页爬虫分为静态网页爬虫和动态网页爬虫,前者是指索要获取的网页内容不需要经过js运算或者人工交互, 后者是指获取的内容必须要经过js运算或者人工交互.这里的js运算可能是aja ...

  7. ChatGPT炒股:从巨潮资讯网上批量下载特定主题的股票公告

    巨潮资讯网是股票公告的指定披露渠道之一,上面有非常详细的A股股票公告内容. 现在,我们要获取2023-01-04~2023-07-04期间所有新三板公司中标题包含"2023年日常性关联交易& ...

  8. 迅雷API批量下载巨潮年报

    目录 说明 年报筛选流程 代码 说明 首先从巨潮页面用八爪鱼爬取公告链接列表,但是该链接指向页面还有一个下载按钮且链接无法在详情页对下载直接元素提取,索性链接之间有关系可以直接修改. 下载路径分开保存 ...

  9. python3爬取巨潮资讯网的年报数据

    python3爬取巨潮资讯网的年报数据 前期准备: 需要用到的库: 完整代码: 前期准备: 巨潮资讯网有反爬虫机制,所以先打开巨潮资讯网的年报板块,看看有什么解决办法. 巨潮咨询年报板块 可以通过这样 ...

  10. 巧用selenium爬取巨潮资讯公司数据

    巧用selenium爬取巨潮资讯公司数据 立项背景:在做深度学习的过程中利用python进行建模,需要数据来训练模型. 项目目标:通过运用python的selenium模块,爬取巨潮资讯网站关于公司的 ...

最新文章

  1. HBase环境搭建与使用
  2. uni-app 实现点击列表隐藏显示
  3. 【MATLAB统计分析与应用100例】案例005:matlab调用medfilt1函数对加噪正弦波信号进行平滑处理
  4. 倒计时小工具_这款高颜值的 APP 可以让小仙女/男神们的日子过得更精致
  5. 《软件调试》读书笔记:第13章 硬错误和蓝屏
  6. 【chorme插件开发】第五节:纯js实现的功能插件实例
  7. python串口通信_python的串口通信(pyserial)
  8. 《每个设计师都应该掌握的50个css代码段》11~20段
  9. Unix中使用MeteoInfo - Xmanager设置
  10. 网络管理员必备:Windows日志的保护与伪造
  11. paip.python错误解决17
  12. javascript中对象的深度克隆
  13. feign session 调用_Feign调用session丢失解决方案
  14. MATLAB R2016a 安装详细教程
  15. 常用身份证识别 OCR 技术 手机拍照识别身份证
  16. openGauss数据库源码解析系列文章——存储引擎源码解析(一)
  17. 期望值最大化算法 EM_GMM 估计高斯混合模型
  18. JAVA_Android客户端_基础知识点总结
  19. 计算机怎么弄64位,64位系统怎么装?安装64位系统教程
  20. 关于vs2005、vs2008和vs2010项目互转的总结

热门文章

  1. NLP之人机对话系统
  2. h3c交换机配置nat_史上最详细H3C路由器NAT典型配置案例
  3. Ubuntu 串口调试
  4. linux中PATH环境变量的作用和使用方法
  5. 神仙道玄奇套装材料大全
  6. 专访智齿科技吴立楠:智能客服行业发展的三个趋势
  7. 百度、高德、谷歌、火星、wgs84(2000)地图坐标相互转换的JS实现
  8. Oracle环境变量配置
  9. 安全渗透测试工具--Burpsuite的爬虫功能
  10. NAT类型与P2P游戏