国家企业信用信息公示系统爬取

  • 前言
  • 反爬背景
  • 测试
  • 爬取策略
  • 具体流程
  • 流程图
  • 效果图

前言

具体的分析爬取过程这边就直接省略了,不会分析的小伙伴直接百度下,网上有很多介绍细节的,我这边只要把我爬取中重要的几个环节写一下,加深下记忆,也给大家一个参考。
声明:我的爬虫程序是用C#写的,还有滑动和点序验证码直接对接的是第三方接口完成。

反爬背景

企业国家企业信用信息公示系统出现了大量反爬技术手段使得爬取网站信息变得非常困难,具体的反爬手段包括:加密混淆的js文件,IP封锁,验证码识别(滑动和语序点击并存),useragent检查,多重url拼接cookie等。

测试

  1. 公司ip(多次访问后):查询界面出现语序验证码,多次之后被封ip(404报错);
  2. 代理ip1,2,3规律:第一次查询无需验证码,之后是滑动验证码和语序验证码交替出现。大概30次左右:只出现语序验证码;(每次验证码成功解开再次查询又会出现无需验证码的情况,次数在0-3次之间)
  3. 特殊情况:
    1.同一个ip火狐被封,谷歌没被封。
    2.正常访问网站会出现521报错,刷新不出数据,空白页的情况

爬取策略

绕开验证码直接对接验证码的接口,然后直接封装需要的cookie进行伪装访问列表界面,解析出企业详情页的链接,然后依次去下载。

具体流程

1. 访问http://www.gsxt.gov.cn/SearchItemCaptcha获取名为__jsluid的cookie值和加密的JS然后通过两次解密JS获取名为__jsl_clearance的cookie值。
2. 用第1步的两个cookie值再次访问http://www.gsxt.gov.cn/SearchItemCaptcha,得到名为SECTOKEN,JSESSIONID,tlb_的cookie值和challenge、gt两个参数。
3. 发送第2步的challenge,gt参数到验证码识别接口,获取validate参数(调用的是外部的验证码接口)。
4. 访问http://www.gsxt.gov.cn/corp-query-custom-geetest-image.gif?v=54,V(参数是当前时间分钟和秒的累加数),得到ASCII码的JS语句,解析JS语句得到参数location_inf。
5. 访问http://www.gsxt.gov.cn/corp-query-geetest-validate-input.html?token=(参数是第4步的location_inf)得到ASCII码的JS语句,解析JS语句得到参数token
6. 拼接以上获得的参数,tab参数固定、province参数为空即可、其他参数填入前面动态获取的数据即可。
postData={ ‘tab’:‘ent_tab’, ‘province’:’’, ‘geetest_challenge’:challenge, ‘geetest_validate’:validate], ‘geetest_seccode’:validate+’|jordan’, ‘token’:token, ‘searchword’:keyword }
访问http://www.gsxt.gov.cn/corp-query-search-advancetest.html提交post请求获取列表页面拿到需要的公司的各个详情页链接。
7. 带着所有cookie去访问第6步的详情页链接抓取到需要的内容。

流程图


具体的代码就不贴了,太繁了。

效果图


平时不怎么上CSDN,这次上来看到好几个同学让我发代码,我也不一一发了,自己去下吧,供大家参考的小demo。
https://download.csdn.net/download/huanxiao8512/11191333添加链接描述

资源被CSDN官方删掉了,理由是违规,我换个地方,这个是19年的demo,需要的自己去下吧!https://item.taobao.com/item.htm?ft=t&id=618712985216

国家企业信用信息公示系统爬取相关推荐

  1. 国家企业信用信息公示系统爬虫

    本文仅供学习交流使用,请勿用于商业用途或不正当行为 如果侵犯到贵公司的隐私或权益,请联系我立即删除 国家企业信用信息公示系统及30多个省份的子系统均采用了加速乐的反扒,仔细研究可发现其主要的5个coo ...

  2. 艺赛旗(RPA)国家企业信用信息公示系统验证码破解(一)

    目前艺赛旗RPA已经更新到8.0版本,可以让所有用户免费下载试用http://www.i-search.com.cn/index.html?from=line1 (复制链接下载) 我们一般会通过国家企 ...

  3. JS逆向之国家企业信用信息公示系统Cookie传递

    目标地址 http://www.gsxt.gov.cn/corp-query-entprise-info-xxgg-100000.html 分析 POST http://www.gsxt.gov.cn ...

  4. 【004】国家企业信用信息公示系统-官方渠道查询企业信息

    商业活动中,难免会和一些企业打交道,那么如何了解企业的基本信息尤其是信用信息呢?在有相关需求时可以选择企某查或者天某查等第三方平台查询,也可以选择官方的"国家企业信用信息公示平台" ...

  5. 国家企业信用信息公示系统爬虫——流程分析

    本文仅供学习交流使用,请勿用于商业用途或不正当行为 如果侵犯到贵公司的隐私或权益,请联系我立即删除 20201212更新,附上第二步js改写的代码 # 2.第二次访问http://www.gsxt.g ...

  6. 艺赛旗(RPA)国家企业信用信息公示系统验证码破解(二)

    艺赛旗 RPA8.0全新首发免费下载 点击下载 http://www.i-search.com.cn/index.html?from=line1 为了验证码破解的稳定性,这里选择 selenium+C ...

  7. 国家企业信用信息公示系统每年申报登录提示账号不存在【山东】

    首页 点击右上角登陆 后,无论尝试登陆 还是忘记密码都显示账号不存在 点击这个,就可以用统一信用代码/注册号正常登陆了

  8. Python爬虫-国家企业信用信息公示系统App

    https://blog.csdn.net/weixin_34236497/article/details/86998539 转载于:https://www.cnblogs.com/yuyu666/p ...

  9. 【爬虫】关于企业信用信息公示系统-加速乐最新反爬虫机制

    ( ̄▽ ̄)~*又得半夜修仙了,作为一个爬虫小白,花了3天时间写好的程序,才跑了一个月目标网站就更新了,是有点悲催,还是要只有一天的时间重构. 升级后网站的层次结构并没有太多变化,表面上是国家企业信用信 ...

  10. 全国企业信用信息公示系统

    全国企业信用信息公示系统 http://gsxt.saic.gov.cn/

最新文章

  1. 【移动端最强架构】LCNet吊打现有主流轻量型网络(附代码实现)
  2. Linux tcpdump命令
  3. Linux的文件管理
  4. VTK:可视化之MoveCamera
  5. 动态规划(二)——经典问题之最长上升子序列
  6. FD.io VSAP(VPP Stack Acceleration Project),通过FD.io VSAP构建用户态协议栈
  7. Bailian4069 买手机【序列处理+排序】
  8. windows定时自动运行R脚本的正确姿势
  9. React Native 入门第一篇
  10. 测试低频噪音软件,低频噪音检测
  11. [Windows] PPT插件集,部分支持WPS(提高你的制作效率和页面美观)
  12. 禅道项目管理软件配置及使用
  13. 华为交换机不同VLAN间通信的两种主流解决方案,一分钟快速掌握
  14. poscms清除html,POSCMS开源内容管理系统 v3.6.0 升级说明
  15. C++ 读取txt文件中数据并存入数组中
  16. 用JavaScript编写的一个点名系统
  17. 如何把流程图转换为软件设计(初稿)
  18. R语言Duncan检验
  19. WebXR 技术调研 - 在浏览器中构建扩展现实(XR)应用
  20. 软件项目开发基本流程详解

热门文章

  1. 在腾讯实习的那段日子:不要在难受的时候选择 '逃避/离开'
  2. 软件技术毕业论文编程方向
  3. 标准工时分析软件VIOOVI,适配现代化工业的人工智能软件
  4. leetcode-堆
  5. 计算机打字速录,速录员打字口诀有哪些
  6. 实对称矩阵特征值按大小排序
  7. 2021Java面试总结!平安银行java开发面试
  8. 分享11个web前端开发实战项目案例+源码
  9. latex模板章节序号标签加粗
  10. 基于OpenCPU方案的BC26 NB模组开发总结