python爬虫企业工商信息_Python 爬虫进阶必备 | 企业信用公示系统公告加密解析...

本周练手加一

上次分享了两个练手喂饭教程，朋友好奇喂饭是啥意思？就是把知识当成饭，喂到嘴里。

同时咸鱼整理了一下过往所有关于JS逆向文章的代码，希望附上代码能让你学( 记 )的( 得 )更( star )快：

接下来继续练手，上次的项目二有读者反映讲的不是很明白，这次找了同类型的网站再来一次。

分析请求

打开开发者模式抓包很快就可以看到下面这个请求返回的是我们需要的数据：

我们先根据这里的请求，写一份代码测试一下哪些是我们必须的参数：

类似这样：

import requests

url = "http://www.gsxt.gov.cn/affiche-query-area-info-paperall.html"

querystring = {"noticeType":"11","areaid":"100000","noticeTitle":"","regOrg":""}

payload = "draw=1&start=0&length=10"

headers = {

'Cookie': "__jsluid_h=aa1c7a0fc461a8ea63747a4b02956b38; __jsl_clearance=1565006542.706|0|D0rZ6Fm9vgqQ2QyKbNgIlZRkMsw%3D; SECTOKEN=6968716378603526401; UM_distinctid=16c61a8e0d03f5-01bbcf42e0196a-37647c02-13c680-16c61a8e0d17c1; CNZZDATA1261033118=2135658768-1565002015-http%253A%252F%252Fwww.gsxt.gov.cn%252F%7C1565002015; JSESSIONID=40B833BC895E78C1A2E6C2D74C1DE6F8-n2:2; tlb_cookie=S172.16.12.42",

'Origin': "http://www.gsxt.gov.cn",

'Accept-Encoding': "gzip, deflate",

'Accept-Language': "zh-CN,zh;q=0.9",

'User-Agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36",

}

response = requests.post(url, data=payload, headers=headers, params=querystring)

print(response.text)

通过不断删除 headers 中的参数并观察返回值，来判断哪些是必须携带的参数，哪些是无关紧要的参数。

测试过程比较繁琐就不一一截图演示，同时建议放慢测试请求速度，否则会触发网站的反爬措施。

经过测试可以发现 UA 以及 Cookie 中的 __jsluid_h __jsl_clearance SECTOKEN or JSESSIONID 都是不可缺少的参数。

分析参数的生成

现在就需要一一找齐参数是怎样生成的：

这里的 UA 就不需要分析了，直接复制浏览器的即可，这里需要注意的是这里的 UA 与 Cookie 还有 IP 是对应的，所以出现更换 UA 的情况那么 Cookie 就需要重新生成，这样的设置对于批量爬取的兄die是个难度不小的点，我们抱着学习的态度就不用考虑太多了。

接下来分析 Cookie 的生成，先看看 __jsluid_h

通过用浏览器抓包可以看到 __jsluid_h 是通过请求 Set 进来的，我们照着来一遍就行。

接下来看看 SECTOKEN or JSESSIONID 和上面的参数套路一样，区别在于这个请求的 Cookie 中必须带上 __jsl_clearance

接下来需要关注的就只有 Cookie 值 __jsl_clearance

在这几个请求包里反复筛选都没有发现这个值是怎么写入的(怕漏掉的可以用 Fiddler 抓)，那么就只可能是 js 生成的了。

通过不带 Cookie 的方式请求一次，可以看到网页返回了和上次文章中加密二类似的 js 代码，按照上次文章的套路，我们复制到 Console 中测试一下。

测试流程：

先把 eval 改成 console.log 让结果打印出来。

把测试结果复制出来格式化，可以看到格式化后的代码分为两个部分，主要的是上面的 Cookie 生成代码。

所以单独把上半部分代码复制出来调试即可，需要注意的是通过 Python 调用的 Node 环境不支持 document 这类浏览器属性所以调试的时候需要将它去除或在 Node 下执行不报错即可。

通过调试我们生成了下面这个字符串。

运用至 Python 中，即可请求到需要的数据了。

丢个效果图，溜了。

python爬虫企业工商信息_Python 爬虫进阶必备 | 企业信用公示系统公告加密解析...相关推荐

python爬取控制台信息_python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
python爬虫抓取信息_python爬虫爬取网上药品信息并且存入数据库
我最近在学习python爬虫,然后正好碰上数据库课设,我就选了一个连锁药店的,所以就把网上的药品信息爬取了下来. 1,首先分析网页 2,我想要的是评论数比较多的,毕竟好东西大概是买的人多才好.然后你会 ...
利用python爬取租房信息_Python爬虫实战(1)-爬取“房天下”租房信息(超详细)
#前言html 先看爬到的信息:python 今天主要用到了两个库:Requests和BeautifulSoup.因此我先简单的说一下这两个库的用法,提到的都是此文须要用到的.编程 #Requests ...
python爬取酒店信息_Python 爬虫练手项目—酒店信息爬取
from bs4 import BeautifulSoup import requests import time import re url = 'http://search.qyer.com/ho ...
企业工商信息批量查询和自动验证如何实现
日常商业活动中,企业工商信息验证的应用场景非常广泛,尤其ToB行业,或多或少都要对企业的资质进行查询或者核验,并将其与自身业务相结合,那么如何快速精准的进行企业工商验证? 最简单直接的办法当然是在国家 ...
Python爬虫实践2，企业工商信息查询
做项目,从内容上可划分四大部分:数据.流程.组织.功能.按工作量排,数据与流程稳居前二.特别涉及到期初数据的整理,几W条垃圾数据,质量这么差,公司业务还能玩的转,深刻体会到了老员工的智慧--山不转水转 ...
企业工商信息查询第三方软件/API查询原理分析
一.企业工商信息查询API的使用场景 1.银行及金融机构对企业进行信贷评估 2.媒体财经信息平台,提升金融财经信息平台的业务能力及时效性 3.政府机构,约束社会失信企业,构建社会信用体系 4.一般企业 ...
如何批量获取企业工商信息？
java,python,PHP如何采集企业工商信息,销售团队如何批量获取企业工商信息,包括:营业执照信息.主要人员信息.股东及出资信息.变更信息.股权出质等级信息.企业经营异常信息.分支机构信息等打 ...
企业工商信息数据接口
2019独角兽企业重金招聘Python工程师标准>>> 接口名称:企业工商信息数据接口接口名称:聚合数据按企业关键字模糊查询返回接口地址:http://tianyancha.a ...

python爬虫企业工商信息_Python 爬虫进阶必备 | 企业信用公示系统公告加密解析...

python爬虫企业工商信息_Python 爬虫进阶必备 | 企业信用公示系统公告加密解析...相关推荐

最新文章

热门文章