python批量关键字百度搜索结果url解码

代码块思路：

读取TXT文件中的关键了，每行1个；
按关键字批量采集百度搜索结果前10名；采集格式为搜索词、匹配排名标题、匹配排名URL（加密结果）、对应排名等信息
批量对于百度加密后的URL进行解密；
存储解密后的真实URL。
5、针对行业快排10W排名等进行验证，也可针对百度关键字结果URL进行汇总，查找主要流量平台。

导入需要的库

import requests
from bs4 import BeautifulSoup
import re
import time#coding:utf-8

读取TXT中的关键字，生成数组

with open('key.txt','r') as f:result = f.read()
keys = result.split('\n')
key_words = list(enumerate(keys, start=1))

按关键字逐条采集百度搜索结果，并解密URL进行存储！
因百度屏蔽爬虫，故加入了HEADER信息。
按URL的状态、直接网址，200，302状态进行不同识别。

for key in key_words:url = 'https://www.baidu.com/s?wd='+ key[1]header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36','Cookie':'PSTM=1476231684; BIDUPSID=4F526560482E2A5E68D69CC8B0998806; plus_cv=1::m:92e3c68f; BAIDUID=C5A710455602AEA5BEC3D1B13B26321B:FG=1;'' BDUSS=W5zS3JSeVYwSHZjVm5SdTdjQjlKNC1FLWJqbklvaEptZjVZVkl2bXhMN1o1amhZSVFBQUFBJCQAAAAAAAAAAAEAAACj2nZjanVleWluZ3MAAAAAAAAAAAAAAAAAAAA''AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAANlZEVjZWRFYT; BD_HOME=1; BD_UPN=12314353; sug=3; sugstore=0; ORIGIN=2; bdime=0;'' H_PS_645EC=78d5XI4%2Bj6NkSjLKSmkiYdx%2F5jHNa0c4UemYz6WwEpyczIPebiQwaLtzwnXd2gUHv28P; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; BD_CK_SAM=1;'' PSINO=6; H_PS_PSSID=1448_18288_21112_17001_20241_21455_21406_21394_21377_21192_20929; BDSVRTM=0'}web_db = requests.get(url,headers=header)time.sleep(2)soup = BeautifulSoup(web_db.text,'lxml')titles = soup.select('#content_left > div > h3 > a')ranks = [ i for i in range(1,11)]for title,link,rank in zip(titles,titles,ranks):baidu_url = link.get('href')if str(baidu_url).find('link?url=') > 0 :web_db2 = requests.get(baidu_url, allow_redirects=False)if web_db2.status_code == 200:soup = BeautifulSoup(web_db2.text, 'lxml')urls = soup.select('head > noscript')url2 = urls[0]url_math = re.search(r'\'(.*?)\'', str(url2), re.S)web_url = url_math.group(1)elif web_db2.status_code == 302:web_url = web_db2.headers['location']else:web_url = 'error'else:web_url = baidu_urldata = {'key':key,'title':title.get_text(),'url':web_url.encode('utf-8'),'rank':rank,}with open('info.txt','a') as f:f.write(str(data)+'\n')print('已完成采集任务' + str(key[0]) + '**********总采集任务' + str(len(key_words)))

生成TXT完成，生成结果已做EXT识别。
直接粘贴结果到EXCLE统计即可。

对于不懂代码的同学，也生成了EXE的软件，一键操作即可。
有需要的同学可以在下面留言！！！！
EXE没有做加壳免杀。。。。

python批量关键字百度搜索结果url解码相关推荐

python 爬取百度搜索结果url
简单的爬取百度搜索结果url 先用了requests库来访问百度,再通过xpath来提取搜索后的结果 import requests from lxml import etreefor i in ra ...
详解用python批量采集百度搜索多个关键字数据
本文介绍如何使用后羿采集器的流程图模式 ,免费采集百度搜索多个关键字的信息数据. 采集字段: 标题.标题链接.摘要.时间功能点目录: 什么是行为组件循环组件的功能点介绍如何使用提取数据组件如 ...
python爬去百度搜索结果_python实现提取百度搜索结果的方法
本文实例讲述了python实现提取百度搜索结果的方法.分享给大家供大家参考.具体实现方法如下: # coding=utf8 import urllib2 import string import ur ...
python爬取百度搜索_使用Python + requests爬取百度搜索页面
想学一下怎样用python爬取百度搜索页面,因为是第一次接触爬虫,遇到一些问题,把解决过程与大家分享一下 1.使用requests爬取网页首先爬取百度主页www.baidu.com import r ...
python关键词_python与seo，Python批量挖掘百度凤巢关键词
利用python来完成关键词挖掘,获取关键词数据是seo中比较基础的部分,渠道很多,开水以前也有专门的讲解文章搜索需求挖掘,推广词库收集整理.这次我们就其中关键词搜集的一种方式来展开,来采集凤巢的关键 ...
python爬去百度搜索结果_python爬虫获取百度搜索结果的简单示例
编程之家收集整理的这篇文章主要介绍了python爬虫获取百度搜索结果的简单示例,编程之家小编觉得挺不错的,现在分享给大家,也给大家做个参考. 感兴趣python爬虫获取百度搜索结果的简单示例的小伙伴, ...
python如何获取百度搜索结果的真实URL
在公司中需要去抓取一些数据,就遇到了以下这些问题: 想通过爬虫获取百度搜索结果的原始链接.通过Firefox的HttpFox插件,发现在搜索结果的URL是加密过的,例如: http://www.bai ...
Python爬取百度搜索的标题和真实URL的代码和详细解析
网页爬取主要的是对网页内容进行分析,这是进行数据爬取的先决条件,因此博客主要对爬取思路进行下解析,自学的小伙伴们可以一起来学习,有什么不足也可以指出,都是在自学Ing,回归正题今天我们要来爬取百度搜索 ...
百度搜索结果url加密算法 python源码
百度搜索结果都是加密过的,比如: baidu.com/link?url=a3f48d30fc293c5e471ef23de092fddc99e8cd902143baf828cbc787e08f0e3f ...

python批量关键字百度搜索结果url解码

python批量关键字百度搜索结果url解码相关推荐

最新文章

热门文章