代码块思路:

  1. 读取TXT文件中的关键了,每行1个;
  2. 按关键字批量采集百度搜索结果前10名;采集格式为搜索词、匹配排名标题、匹配排名URL(加密结果)、对应排名等信息
  3. 批量对于百度加密后的URL进行解密;
  4. 存储解密后的真实URL。
    5、针对行业快排10W排名等进行验证,也可针对百度关键字结果URL进行汇总,查找主要流量平台。

导入需要的库

import requests
from bs4 import BeautifulSoup
import re
import time#coding:utf-8

读取TXT中的关键字,生成数组

with open('key.txt','r') as f:result = f.read()
keys = result.split('\n')
key_words = list(enumerate(keys, start=1))

按关键字逐条采集百度搜索结果,并解密URL进行存储!
因百度屏蔽爬虫,故加入了HEADER信息。
按URL的状态、直接网址,200,302状态进行不同识别。

for key in key_words:url = 'https://www.baidu.com/s?wd='+ key[1]header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36','Cookie':'PSTM=1476231684; BIDUPSID=4F526560482E2A5E68D69CC8B0998806; plus_cv=1::m:92e3c68f; BAIDUID=C5A710455602AEA5BEC3D1B13B26321B:FG=1;'' BDUSS=W5zS3JSeVYwSHZjVm5SdTdjQjlKNC1FLWJqbklvaEptZjVZVkl2bXhMN1o1amhZSVFBQUFBJCQAAAAAAAAAAAEAAACj2nZjanVleWluZ3MAAAAAAAAAAAAAAAAAAAA''AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAANlZEVjZWRFYT; BD_HOME=1; BD_UPN=12314353; sug=3; sugstore=0; ORIGIN=2; bdime=0;'' H_PS_645EC=78d5XI4%2Bj6NkSjLKSmkiYdx%2F5jHNa0c4UemYz6WwEpyczIPebiQwaLtzwnXd2gUHv28P; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; BD_CK_SAM=1;'' PSINO=6; H_PS_PSSID=1448_18288_21112_17001_20241_21455_21406_21394_21377_21192_20929; BDSVRTM=0'}web_db = requests.get(url,headers=header)time.sleep(2)soup = BeautifulSoup(web_db.text,'lxml')titles = soup.select('#content_left > div > h3 > a')ranks = [ i for i in range(1,11)]for title,link,rank in zip(titles,titles,ranks):baidu_url = link.get('href')if str(baidu_url).find('link?url=') > 0 :web_db2 = requests.get(baidu_url, allow_redirects=False)if web_db2.status_code == 200:soup = BeautifulSoup(web_db2.text, 'lxml')urls = soup.select('head > noscript')url2 = urls[0]url_math = re.search(r'\'(.*?)\'', str(url2), re.S)web_url = url_math.group(1)elif web_db2.status_code == 302:web_url = web_db2.headers['location']else:web_url = 'error'else:web_url = baidu_urldata = {'key':key,'title':title.get_text(),'url':web_url.encode('utf-8'),'rank':rank,}with open('info.txt','a') as f:f.write(str(data)+'\n')print('已完成采集任务' + str(key[0]) + '**********总采集任务' + str(len(key_words)))

生成TXT完成,生成结果已做EXT识别。
直接粘贴结果到EXCLE统计即可。

对于不懂代码的同学,也生成了EXE的软件,一键操作即可。
有需要的同学可以在下面留言!!!!
EXE没有做加壳免杀。。。。

python批量关键字百度搜索结果url解码相关推荐

  1. python 爬取百度搜索结果url

    简单的爬取百度搜索结果url 先用了requests库来访问百度,再通过xpath来提取搜索后的结果 import requests from lxml import etreefor i in ra ...

  2. 详解用python批量采集百度搜索多个关键字数据

    本文介绍如何使用后羿采集器的 流程图模式 ,免费采集百度搜索多个关键字的信息数据. 采集字段: 标题.标题链接.摘要.时间 功能点目录: 什么是行为组件 循环组件的功能点介绍 如何使用提取数据组件 如 ...

  3. python爬去百度搜索结果_python实现提取百度搜索结果的方法

    本文实例讲述了python实现提取百度搜索结果的方法.分享给大家供大家参考.具体实现方法如下: # coding=utf8 import urllib2 import string import ur ...

  4. python爬取百度搜索_使用Python + requests爬取百度搜索页面

    想学一下怎样用python爬取百度搜索页面,因为是第一次接触爬虫,遇到一些问题,把解决过程与大家分享一下 1.使用requests爬取网页 首先爬取百度主页www.baidu.com import r ...

  5. python关键词_python与seo,Python批量挖掘百度凤巢关键词

    利用python来完成关键词挖掘,获取关键词数据是seo中比较基础的部分,渠道很多,开水以前也有专门的讲解文章搜索需求挖掘,推广词库收集整理.这次我们就其中关键词搜集的一种方式来展开,来采集凤巢的关键 ...

  6. python爬去百度搜索结果_python爬虫获取百度搜索结果的简单示例

    编程之家收集整理的这篇文章主要介绍了python爬虫获取百度搜索结果的简单示例,编程之家小编觉得挺不错的,现在分享给大家,也给大家做个参考. 感兴趣python爬虫获取百度搜索结果的简单示例的小伙伴, ...

  7. python如何获取百度搜索结果的真实URL

    在公司中需要去抓取一些数据,就遇到了以下这些问题: 想通过爬虫获取百度搜索结果的原始链接.通过Firefox的HttpFox插件,发现在搜索结果的URL是加密过的,例如: http://www.bai ...

  8. Python爬取百度搜索的标题和真实URL的代码和详细解析

    网页爬取主要的是对网页内容进行分析,这是进行数据爬取的先决条件,因此博客主要对爬取思路进行下解析,自学的小伙伴们可以一起来学习,有什么不足也可以指出,都是在自学Ing,回归正题今天我们要来爬取百度搜索 ...

  9. 百度搜索结果url加密算法 python源码

    百度搜索结果都是加密过的,比如: baidu.com/link?url=a3f48d30fc293c5e471ef23de092fddc99e8cd902143baf828cbc787e08f0e3f ...

最新文章

  1. 自动驾驶的实现之路——几大关键传感器应用解析
  2. Document 对象描述
  3. 【小工匠聊Modbus】05-数据类型
  4. Webdynpro ALV component usage
  5. Wordpress 提速之 Gzip 压缩
  6. python元祖迭代_如何在Python中迭代元组的堆栈
  7. javascript小游戏_个人网站集成js小游戏《圈小猫》教程及源码
  8. echart雷达图文字挤在一起_【数据可视化·图表篇】雷达图
  9. Python机器学习:梯度下降法008如何确定梯度计算的准确性,调试梯度下降法
  10. DataLoader, when num_worker 0, there is bug
  11. Nordic Collegiate Programming Contest 2016
  12. 最大子段和动态规划_动态规划解最大子段和问题
  13. linux下mono播放PCM音频
  14. 巨人肩膀—arduino
  15. Java测试框架系列:Mockito 详解:第二部分:创建存根
  16. Java中的Collections.sort()
  17. android x86 mip,mip-appdl
  18. 输入法半角和全角的快捷转换_Windows 10—禁用Ctrl+Space输入法非输入法切换
  19. 新房子灶台风水方位设在什么地方比较好?
  20. 计算新闻传播学临摹作业_数据抓取与数据清洗(西安交大国家艺术基金数据可视化培训第34天)

热门文章

  1. 你值得安装的24个chrome插件!!!
  2. 【多图】二进制的起源,从01到创造天地万物
  3. 如何避开PPT演讲的几个误区(上)
  4. linux系统安装达梦数据库
  5. [py练习] 返回朋友名字的list
  6. Gradual Warmup Scheduler
  7. ppoe拨号服务器没响应,pppoe拨号失败怎么办 pppoe拨号失败解决方法
  8. css案例1——一级菜单、二级菜单、三级菜单、四级菜单
  9. 51单片机c语言试题及答案,单片机C语言期末考试题..
  10. 台式计算机能装蓝牙吗,台式电脑没有蓝牙功能怎么安装