本周练手加一

上次分享了两个练手喂饭教程,朋友好奇喂饭是啥意思?就是把知识当成饭,喂到嘴里。

同时咸鱼整理了一下过往所有关于JS逆向文章的代码,希望附上代码能让你学( 记 )的( 得 )更( star )快:

接下来继续练手,上次的项目二有读者反映讲的不是很明白,这次找了同类型的网站再来一次。

分析请求

打开 开发者模式 抓包 很快就可以看到下面这个请求返回的是我们需要的数据:

我们先根据这里的请求,写一份代码测试一下哪些是我们必须的参数:

类似这样:

import requests

url = "http://www.gsxt.gov.cn/affiche-query-area-info-paperall.html"

querystring = {"noticeType":"11","areaid":"100000","noticeTitle":"","regOrg":""}

payload = "draw=1&start=0&length=10"

headers = {

'Cookie': "__jsluid_h=aa1c7a0fc461a8ea63747a4b02956b38; __jsl_clearance=1565006542.706|0|D0rZ6Fm9vgqQ2QyKbNgIlZRkMsw%3D; SECTOKEN=6968716378603526401; UM_distinctid=16c61a8e0d03f5-01bbcf42e0196a-37647c02-13c680-16c61a8e0d17c1; CNZZDATA1261033118=2135658768-1565002015-http%253A%252F%252Fwww.gsxt.gov.cn%252F%7C1565002015; JSESSIONID=40B833BC895E78C1A2E6C2D74C1DE6F8-n2:2; tlb_cookie=S172.16.12.42",

'Origin': "http://www.gsxt.gov.cn",

'Accept-Encoding': "gzip, deflate",

'Accept-Language': "zh-CN,zh;q=0.9",

'User-Agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36",

}

response = requests.post(url, data=payload, headers=headers, params=querystring)

print(response.text)

通过不断删除 headers 中的参数并观察返回值,来判断哪些是必须携带的参数,哪些是无关紧要的参数。

测试过程比较繁琐就不一一截图演示,同时建议放慢测试请求速度,否则会触发网站的反爬措施。

经过测试可以发现 UA 以及 Cookie 中的 __jsluid_h __jsl_clearance SECTOKEN or JSESSIONID 都是不可缺少的参数。

分析参数的生成

现在就需要一一找齐参数是怎样生成的:

这里的 UA 就不需要分析了,直接复制浏览器的即可,这里需要注意的是这里的 UA 与 Cookie 还有 IP 是对应的,所以出现更换 UA 的情况那么 Cookie 就需要重新生成,这样的设置对于批量爬取的兄die是个难度不小的点,我们抱着学习的态度就不用考虑太多了。

接下来分析 Cookie 的生成,先看看 __jsluid_h

通过用浏览器抓包 可以看到 __jsluid_h 是通过请求 Set 进来的,我们照着来一遍就行。

接下来看看 SECTOKEN or JSESSIONID 和上面的参数套路一样,区别在于这个请求的 Cookie 中必须带上 __jsl_clearance

接下来需要关注的就只有 Cookie 值 __jsl_clearance

在这几个请求包里反复筛选都没有发现这个值是怎么写入的(怕漏掉的可以用 Fiddler 抓),那么就只可能是 js 生成的了。

通过不带 Cookie 的方式请求一次,可以看到网页返回了和上次文章中加密二类似的 js 代码 ,按照上次文章的套路,我们复制到 Console 中测试一下。

测试流程:

先把 eval 改成 console.log 让结果打印出来。

把测试结果复制出来格式化,可以看到格式化后的代码分为两个部分,主要的是上面的 Cookie 生成代码。

所以单独把上半部分代码复制出来调试即可,需要注意的是通过 Python 调用的 Node 环境不支持 document 这类浏览器属性所以调试的时候需要将它去除或在 Node 下执行不报错即可。

通过调试我们生成了下面这个字符串。

运用至 Python 中,即可请求到需要的数据了。

丢个效果图,溜了。

python爬虫企业工商信息_Python 爬虫进阶必备 | 企业信用公示系统公告加密解析...相关推荐

  1. python爬取控制台信息_python爬虫实战之爬取智联职位信息和博客文章信息

    1.python爬取招聘信息 简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author  ...

  2. python爬虫抓取信息_python爬虫爬取网上药品信息并且存入数据库

    我最近在学习python爬虫,然后正好碰上数据库课设,我就选了一个连锁药店的,所以就把网上的药品信息爬取了下来. 1,首先分析网页 2,我想要的是评论数比较多的,毕竟好东西大概是买的人多才好.然后你会 ...

  3. 利用python爬取租房信息_Python爬虫实战(1)-爬取“房天下”租房信息(超详细)

    #前言html 先看爬到的信息:python 今天主要用到了两个库:Requests和BeautifulSoup.因此我先简单的说一下这两个库的用法,提到的都是此文须要用到的.编程 #Requests ...

  4. python爬取酒店信息_Python 爬虫练手项目—酒店信息爬取

    from bs4 import BeautifulSoup import requests import time import re url = 'http://search.qyer.com/ho ...

  5. 企业工商信息批量查询和自动验证如何实现

    日常商业活动中,企业工商信息验证的应用场景非常广泛,尤其ToB行业,或多或少都要对企业的资质进行查询或者核验,并将其与自身业务相结合,那么如何快速精准的进行企业工商验证? 最简单直接的办法当然是在国家 ...

  6. Python爬虫实践2,企业工商信息查询

    做项目,从内容上可划分四大部分:数据.流程.组织.功能.按工作量排,数据与流程稳居前二.特别涉及到期初数据的整理,几W条垃圾数据,质量这么差,公司业务还能玩的转,深刻体会到了老员工的智慧--山不转水转 ...

  7. 企业工商信息查询第三方软件/API查询原理分析

    一.企业工商信息查询API的使用场景 1.银行及金融机构对企业进行信贷评估 2.媒体财经信息平台,提升金融财经信息平台的业务能力及时效性 3.政府机构,约束社会失信企业,构建社会信用体系 4.一般企业 ...

  8. 如何批量获取企业工商信息?

    java,python,PHP如何采集企业工商信息,销售团队如何批量获取企业工商信息,包括:营业执照信息.主要人员信息.股东及出资信息.变更信息.股权出质等级信息.企业经营异常信息.分支机构信息等 打 ...

  9. 企业工商信息数据接口

    2019独角兽企业重金招聘Python工程师标准>>> 接口名称:企业工商信息数据接口 接口名称:聚合数据 按企业关键字模糊查询返回 接口地址:http://tianyancha.a ...

最新文章

  1. 常见四大类型视频接线DP、HDMI、DVI、VGA的比较
  2. 一起学nRF51xx 14 -  temp
  3. 二分匹配的Hopcroft-Carp算法
  4. 25个优秀的Ajax技术和实例
  5. C# 中 System.Index 结构体和 Hat 运算符(^)的全新用法
  6. LeetCode 1624. 两个相同字符之间的最长子字符串
  7. 六、3D-3D ICP问题线性SVD解法与非线性BA解法
  8. captcha2 验证码 php,Yii2增加验证码步骤详解
  9. Android应用程序键盘(Keyboard)消息处理机制分析(7)
  10. 微信公众号接入H5支付
  11. AI云时代大幕开启,华为全栈AI产品线将迎春天
  12. 耗费2月整理了大数据所有主流框架的demo代码大全
  13. 自定义插件解决MyBatis-Plus like查询遇_ % \等字符需转译问题(含分页查询)
  14. 【tflearn系列教程】(一)为什么要学tflearn?
  15. 我只是穴居人-克拉克/惠勒定律的汉塞尔曼推论
  16. 【P3】 对称三相负载上的相电压、相电流与线电压、线电流的关系
  17. design thinking
  18. html设置网页浏览器图标
  19. C语言的 “四大名著“ !书不在多、新、厚,有神则明!
  20. 餐饮点菜收银该如何选择收银系统

热门文章

  1. 【产品】共享单车APP需要增加导航功能吗?
  2. Tensorflow Keras中的masking与padding的学习笔记
  3. 从-Quora-的-187-个问题中学习机器学习和NLP
  4. 微信提示:绑定非国内手机号的账户将迁移至 Wechat,或者换绑手机号
  5. 电脑 桌面图标上多了一个白色的文档图标 怎么去掉?
  6. 索引额外问题之最左匹配原则的成因
  7. 航天器导航属于计算机应用的哪个领域,计算机应用基础作业1含答案
  8. 无网络环境,如何部署Docker镜像
  9. AR Kit Core ML 将救百万iOS开发者于水深火热中
  10. 正则表达式必看书籍推荐