本文仅供学习交流使用,请勿用于商业用途或不正当行为
如果侵犯到贵公司的隐私或权益,请联系我立即删除

20201212更新,附上第二步js改写的代码

# 2.第二次访问http://www.gsxt.gov.cn/index.html更新cookie:__jsl_clearance
resp = s.get(url)
js_pre = """
var document = {};
var location = {pathname:"pathname", search:"search"};
function getCookie(func, time){func();
};
"""
js_str = js_pre + re.findall('<script>(.+?)</script>', resp.text)[0]
# 删除检测浏览器相关代码, 也可以不删除, 补相关环境即可
replace_str = re.findall(r'function go.+?var .{7,10}=.{7,10};(.+?)var .{7,10}=new Date', resp.text)[0]
js_str = js_str.replace(replace_str, '')
# node里面执行setTimeout失败, 替换该函数为自定义的函数
js_str = js_str.replace('setTimeout', 'getCookie')ctx = execjs.compile(js_str)
__jsl_clearance = ctx.eval('document.cookie')
__jsl_clearance = re.findall('__jsl_clearance=(.+?);Max', __jsl_clearance)[0]
s.cookies.set('__jsl_clearance', __jsl_clearance)  # 更新cookie到session中
print('更新cookie成功:', __jsl_clearance)
1、第一次访问http://www.gsxt.gov.cn/index.html, 获取cookie:__jsluid_h(Set-Cookie), __jsl_clearance(响应生成)
2、 第二次访问http://www.gsxt.gov.cn/index.html, 更新cookie:__jsl_clearance, 本步骤可以先用ast对混淆的代码进行还原, 然后调试改写
3、第三次访问http://www.gsxt.gov.cn/index.html, 设置了JSESSIONID, SECTOKEN, tlb_cookie相关cookie
4、访问http://www.gsxt.gov.cn/SearchItemCaptcha, 获取gt, challenge
5、发送gt, challenge到2captcha打码平台, 获取geetest_validate
6、访问http://www.gsxt.gov.cn/corp-query-custom-geetest-image.gif?v=xx, 获取location_info及^后面的值
7、访问http://www.gsxt.gov.cn/corp-query-geetest-validate-input.html?token=xx, 获取token值
8、用以上获取的参数及cookie构造列表页请求
9、解析详情页url,构造详情页请求

每步运行效果

1.设置cookie成功: 1599319589.733|-1|tig5%2FrcdXMP5mCDrEIz6sGfxgDo%3D2.更新cookie成功: 1599319589.99|0|pZbcb9vKT%2FaYREOJJrcpgCyXgMU%3D3.Set-Cookie成功(JSESSIONID, SECTOKEN, tlb_cookie)4.获取gt, challenge成功: {"success":1,"challenge":"de9f8bb4499c6581b74b4e7b5f7863cd","gt":"62756445cd524543f5a16418cd920ffd"}5.发送2captcha成功, 获取task_id: OK|646726326506.按照2captcha官方要求, 需要等待15-20s, 等待中...7.OK|{"geetest_challenge":"de9f8bb4499c6581b74b4e7b5f7863cd","geetest_validate":"f5807eb58e7e3a34689ff51dedb1d73b","geetest_seccode":"f5807eb58e7e3a34689ff51dedb1d73b|jordan"}8.获取token成功: 348984879.http://www.gsxt.gov.cn/%7B4532906A2D1331B8DE2457690FCFB3F40EE63056688040B6142A6D977F52D92350B8788E2C12C44DD5921B835526F0CE0F75B0DA7BFBCD8F0FCAA8EA6AE4AD83ADBFADBFADCFF9B5F9EB7012107012113980B60B4EADCFAFEAC2595B393A387A999A232065C32F537E3394F2324E8DFEB9DF0C220C0F1D8A5CD54D9B730F69BA948694869486-1599319590398%7D10.{'credit_code': '91110000802100433B', 'company_name': '北京百度网讯科技有限公司', 'registration_number': '110108002734659', 'legal_man': '梁志祥', 'type': '有限责任公司(自然人投资或控股)', 'establish_date': '2001年06月05日', 'registered_capital': '1342128.000000万人民币', 'approval_date': '2019年12月19日', 'business_time_from': '2001年06月05日', 'business_time_to': '2021年06月04日', 'registration_office': '北京市工商行政管理局海淀分局', 'registration_status': '开业', 'address': '北京市海淀区上地十街10号百度大厦2层', 'business_scope': '技术转让、技术咨询、技术服务、技术培训、技术推广;设计、开发、销售计算机软件;经济信息咨询;利用www.baidu.com、www.hao123.com(www.hao222.net、www.hao222.com)网站发布广告;设计、制作、代理、发布广告;货物进出口、技术进出口、代理进出口;医疗软件技术开发;委托生产电子产品、玩具、照相器材;销售家用电器、机械设备、五金交电(不含电动自行车)、电子产品、文化用品、照相器材、计算机、软件及辅助设备、化妆品、卫生用品、体育用品、纺织品、服装、鞋帽、日用品、家具、首饰、避孕器具、工艺品、钟表、眼镜、玩具、汽车及摩托车配件、仪器仪表、塑料制品、花、草及观赏植物、建筑材料、通讯设备、汽车电子产品、器件和元件、自行开发后的产品;预防保健咨询;公园门票、文艺演出、体育赛事、展览会票务代理;翻译服务;通讯设备和电子产品的技术开发;计算机系统服务;车联网技术开发;汽车电子产品设计、研发、制造(北京市中心城区除外);演出经纪;人才中介服;经营电信业务;利用信息网络经营音乐娱乐产品、演出剧(节)目、动漫产品、游戏产品(含网络游戏虚拟货币发行)、表演、网络游戏技法展示或解说(网络文化经营许可证有效期至2020年04月17日);因特网信息服务业务(除出版、教育、医疗保健以外的内容);图书、电子出版物、音像制品批发、零售、网上销售。(企业依法自主选择经营项目,开展经营活动;演出经纪、人才中介服务、利用信息网络经营音乐娱乐产品、演出剧(节)目、动漫产品、游戏产品(含网络游戏虚拟货币发行)、表演、网络游戏技法展示或解说、经营电信业务以及依法须经批准的项目,经相关部门批准后依批准的内容开展经营活动;不得从事本市产业政策禁止和限制类项目的经营活动。)'}

总结:本网站难点为每次搜索都接入了极验验证码(随机出现滑动或点选), 如果去硬刚破解js耗时耗力,这里我们直接使用了第三方的打码平台https://2captcha.com/,以上,仅供参考!

国家企业信用信息公示系统爬虫——流程分析相关推荐

  1. 国家企业信用信息公示系统爬虫

    本文仅供学习交流使用,请勿用于商业用途或不正当行为 如果侵犯到贵公司的隐私或权益,请联系我立即删除 国家企业信用信息公示系统及30多个省份的子系统均采用了加速乐的反扒,仔细研究可发现其主要的5个coo ...

  2. JS逆向之国家企业信用信息公示系统Cookie传递

    目标地址 http://www.gsxt.gov.cn/corp-query-entprise-info-xxgg-100000.html 分析 POST http://www.gsxt.gov.cn ...

  3. 艺赛旗(RPA)国家企业信用信息公示系统验证码破解(一)

    目前艺赛旗RPA已经更新到8.0版本,可以让所有用户免费下载试用http://www.i-search.com.cn/index.html?from=line1 (复制链接下载) 我们一般会通过国家企 ...

  4. 【004】国家企业信用信息公示系统-官方渠道查询企业信息

    商业活动中,难免会和一些企业打交道,那么如何了解企业的基本信息尤其是信用信息呢?在有相关需求时可以选择企某查或者天某查等第三方平台查询,也可以选择官方的"国家企业信用信息公示平台" ...

  5. Python爬虫-国家企业信用信息公示系统App

    https://blog.csdn.net/weixin_34236497/article/details/86998539 转载于:https://www.cnblogs.com/yuyu666/p ...

  6. 艺赛旗(RPA)国家企业信用信息公示系统验证码破解(二)

    艺赛旗 RPA8.0全新首发免费下载 点击下载 http://www.i-search.com.cn/index.html?from=line1 为了验证码破解的稳定性,这里选择 selenium+C ...

  7. 国家企业信用信息公示系统每年申报登录提示账号不存在【山东】

    首页 点击右上角登陆 后,无论尝试登陆 还是忘记密码都显示账号不存在 点击这个,就可以用统一信用代码/注册号正常登陆了

  8. 【爬虫】关于企业信用信息公示系统-加速乐最新反爬虫机制

    ( ̄▽ ̄)~*又得半夜修仙了,作为一个爬虫小白,花了3天时间写好的程序,才跑了一个月目标网站就更新了,是有点悲催,还是要只有一天的时间重构. 升级后网站的层次结构并没有太多变化,表面上是国家企业信用信 ...

  9. 全国企业信用信息公示系统

    全国企业信用信息公示系统 http://gsxt.saic.gov.cn/

最新文章

  1. 阿里达摩院《机器学习算法学习指南》火了,限时开放下载!
  2. centos6.4 安装mysql
  3. Hibernate基础学习2
  4. Springsecurity之AccessDecisionManager
  5. 汽车之家APP车型配置--参数分析
  6. Python 安装第三方模块
  7. 【设计模式】两大策略和六大原则
  8. 机器学习速成课程 | 练习 | Google Development——编程练习:逻辑回归
  9. JDBC中Statement接口提供的execute、executeQuery和executeUpdate之间的区别
  10. KDD2020 | 半监督迁移协同过滤推荐
  11. 两个变量相乘_自动控制原理-信号流图与系统状态变量传递函数之间联系如此紧密...
  12. 查询服务器硬件配置的命令
  13. 卫星轨道的估计问题(Matlab)(三):标准重采样粒子滤波(SIR)对新问题的尝试
  14. [NAACL16]RNN文法
  15. Node.js之Stream可读流readable
  16. 以未来式计算机为题目的作文,未来式科技想象作文
  17. 计算机相关课程考核,计算机专业编程实践类课程考核方法
  18. 老旧计算机桌面,四种旧电脑改造桌面虚拟化的方案
  19. 老爷“鸡”升级小记!
  20. 医院PACS系统之简介

热门文章

  1. Java 设计模式总结及六大设计原则
  2. 亚古兽的进化之路——从Model_Builder,工具箱到python工具箱
  3. 深度学习21天——卷积神经网络(CNN):实现mnist手写数字识别(第1天)
  4. 前端框架,库,组件,插件,控件的理解
  5. 从-Quora-的-187-个问题中学习机器学习和NLP
  6. 高德地图功能点使用整理
  7. A system tap script to detect UDP beacons
  8. 对账 概念 - 账证核对,账账核对,账实核对,账表核对
  9. iOS10软件崩溃 Xcode8崩溃 打印/字体等问题汇总 韩俊强的博客
  10. NetCore3.1简单使用JWT