00X0 前言

补天漏洞响应平台在七月份开始了新的活动，指定范围为公益SRC。无HACK 不兄弟
现在都八月份了，七月不刷洞八月方便面啊。趁着月初，赶紧把公益SRC的域名全部爬下来

01X0 准备活动

01X1 踩点分析

在公益厂商列表中可初步获取厂商的信息，此处发现显示的ID与点击提交漏洞后页面的ID一致。

此处的ID为59906，将鼠标再次悬浮在提交漏洞的链接上

两处的ID均相同。点击提交漏洞

从这里我们可以发现点击提交漏洞需要登录才能获取具体的信息(域名地址)

且经过一些信息收集后，发现厂商页面是由js在线生成的，所以不能直接爬取链接。

01X2 整体思路

先用游客身份爬取公益厂商列表中所有厂商的ID，然后登录补天账户获取对应的Cookies，进而遍历上一步获取的ID值再组合http://butian.360.cn/Loo/submit?cid=id链接获取每个厂商的域名信息

02x0 爬虫编写

02x1 准备环境

Python3.6
模块： requestsBeautifulSoupjson

02X2 关键请求

第一处为未登录厂商的一处请求，返回json数据可以遍历所有页数和厂商ID

其中 p代表当前页数，于是构造请求为
http://butian.360.cn/Reward/pub
post数据: s=1&p=1
另外一处地址为:
http://butian.360.cn/Reward/pub//Message/send
post数据一样

02x3 最终代码

import json
import requests
import time
from bs4 import BeautifulSoupdef spider():'''爬取所有公益厂商的ID保存为id.txt:return:'''headers = {'Host': 'butian.360.cn','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0','Accept': 'application/json, text/javascript, */*; q=0.01','Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3','Accept-Encoding': 'gzip, deflate','Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8','X-Requested-With': 'XMLHttpRequest','Referer': 'http://butian.360.cn/Reward/pub//Message/send','Cookie': 未登录时的Cookie,'Connection': 'keep-alive'}for i in range(1,149):data={'p': i,'token': ''}time.sleep(3)res = requests.post('http://butian.360.cn/Reward/pub/Message/send', data=data,headers=headers,timeout=(4,20))allResult = {}allResult = json.loads(res.text)currentPage = str(allResult['data']['current'])currentNum = str(len(allResult['data']['list']))print('正在获取第' + currentPage + '页厂商数据')print('本页共有' + currentNum + '条厂商')for num in range(int(currentNum)):print('厂商名字:'+allResult['data']['list'][int(num)]['company_name']+'\t\t厂商类型:'+allResult\['data']['list'][int(num)]['industry']+'\t\t厂商ID:'+allResult['data']['list'][int(num)]['company_id'])base='http://butian.360.cn/Loo/submit?cid='with open('id.txt','a') as f:f.write(base+allResult['data']['list'][int(num)]['company_id']+'\n')
def Url():'''遍历所有的ID取得对应的域名保存为target.txt:return:'''headers={'Host':'butian.360.cn','User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language':'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3','Accept-Encoding': 'gzip, deflate','Referer':'http://butian.360.cn/Reward/pub','Cookie':此处为账户登录后的Cookie,'Connection':'keep-alive','Upgrade-Insecure-Requests': '1','Cache-Control':'max-age=0'}with open('id.txt','r') as f:for target in f.readlines():target=target.strip()getUrl=requests.get(target,headers=headers,timeout=(4,20))result=getUrl.textinfo=BeautifulSoup(result,'lxml')url=info.find(name='input',attrs={"name":"host"})name = info.find(name='input', attrs={"name": "company_name"})lastUrl=url.attrs['value']print('厂商:' + name.attrs['value'] + '\t网址:' + url.attrs['value'])with open('target.txt','a') as t:t.write(lastUrl+'\n')time.sleep(3)print('The target is right!')
if __name__=='__main__':data = {'s': '1','p': '1','token': ''}res = requests.post('http://butian.360.cn/Reward/pub/Message/send', data=data)allResult = {}allResult = json.loads(res.text)allPages = str(allResult['data']['count'])print('共' + allPages + '页')spider()Url()

03x0 效果图

第一步：

第二步：

python爬虫爬取补天公益SRC厂商相关推荐

在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
使用Python爬虫爬取网络美女图片
代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip instal ...
运用Python爬虫爬取一个美女网址，爬取美女图
运用Python爬虫爬取一个美女网址,爬取美女图要运用到的python技术: 导入库 1.request 发送请求,从服务器获取数据 2.BeautifulSoup 用来解析整个网页的源代码 imp ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
简单python爬虫爬取游戏wiki立绘
简单python爬虫爬取游戏wiki立绘玩二次元手游是感叹美少女立绘真好看啊,可惜就是抽不到,于是看到b站wiki上有角色立绘,就写了个爬虫准备将立绘趴下来欣赏(舔). 本人爬虫的技术只算是初学,代 ...
Python爬虫---爬取腾讯动漫全站漫画
Python爬虫---爬取腾讯动漫全站漫画操作环境网页分析明确目标提取漫画地址提取漫画章节地址提取漫画图片编写代码导入需要的模块获取漫画地址提取漫画的内容页提取章节名获取漫画源 ...
Python爬虫爬取豆瓣电影TOP250
Python爬虫爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结主要分为三步: 爬取豆瓣top250的网页,并通过 ...
利用python爬取知乎评论_一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: 1 # -*- c ...
Python爬虫爬取相关图片
简要的实现实现Python爬虫爬取百度贴吧页面上的图片,下面的网页就是本篇博客所要爬的网页,当然看到的只是其中的一部分图片,是所要爬取的页面, 而下图则是最终的爬取的图片: 接下来就简要的讲讲爬取的整 ...

python爬虫爬取补天公益SRC厂商