写python爬虫的第一天，拿百度练手遇到 “ 被反爬遇到＜title＞百度安全验证＜/title＞ ” 的解决方案

博主第一次写博文，第一次学爬虫，就是想分享，大家见怪不怪，

首先我设置了一个自定义UA代理池并没有采用插件pip install fake-useragent形式进行随机获取print(ua.ie)

下面是我修改了第一个错误之后的程序，我第一次写的是

ua={"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:65.0) Gecko/20100101 Firefox/65.0",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:65.0) Gecko/20100101 Firefox/65.0"
}

url = 'http://www.baidu.com/'
headers = ua_info.a
req = request.Request(url=url, headers=headers)
res = urllib.request.urlopen(req)
#html = res.read().decode('utf-8')
print(html)

遇到的第一个问题：

Traceback (most recent call last):
File "C:\Programs\Python\pythonProject\main.py", line 25, in
req = request.Request(url=url, headers=headers)
File "C:\Programs\Python\Python39\lib\urllib\request.py", line 326, in init
for key, value in headers.items():
AttributeError: 'str' object has no attribute 'items'Process finished with exit code 1

改好第一个问题之后的程序

ua_list = ['Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11','User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11','Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1','Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
]
a = random.choice(ua_list)
print(a)

url = 'http://www.baidu.com/'
rs1 = ua_info.a
headers = {'User-Agent': rs1}# 1、创建请求对象，包装ua信息
# req = request.Request(url=url, headers=headers)query_string = {'wd': '爬虫'
}
result = parse.urlencode(query_string)
url1 = 'http://www.baidu.com/s?{}'.format(result)
req = request.Request(url=url1, headers=headers)
res = urllib.request.urlopen(req)
html = res.read().decode('utf-8')
print(html)

爬个五次吧，出现了下面结果

<!DOCTYPE html>
<html lang="zh-CN">
<head><meta charset="utf-8"><title>百度安全验证</title><meta http-equiv="Content-Type" content="text/html; charset=utf-8"><meta name="apple-mobile-web-app-capable" content="yes"><meta name="apple-mobile-web-app-status-bar-style" content="black"><meta name="viewport" content="width=device-width, user-scalable=no, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0"><meta name="format-detection" content="telephone=no, email=no"><link rel="shortcut icon" href="https://www.baidu.com/favicon.ico" type="image/x-icon"><link rel="icon" sizes="any" mask href="https://www.baidu.com/img/baidu.svg"><meta http-equiv="X-UA-Compatible" content="IE=Edge"><meta http-equiv="Content-Security-Policy" content="upgrade-insecure-requests"><link rel="stylesheet" href="https://wappass.bdimg.com/static/touch/css/api/mkdjump_0635445.css" />
</head>
<body><div class="timeout hide"><div class="timeout-img"></div><div class="timeout-title">网络不给力，请稍后重试</div><button type="button" class="timeout-button">返回首页</button></div><div class="timeout-feedback hide"><div class="timeout-feedback-icon"></div><p class="timeout-feedback-title">问题反馈</p></div>

查百度解决方案让我在headers中加个参数，并说明找到的位置，并且已经得到了解决，

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36 Edg/83.0.478.50','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9'
}

好奇之下我查了爬虫与反爬的对抗，如下

文章链接：反爬虫策略及破解方法 - 特洛伊-Micro - 博客园反爬虫策略及破解方法作者出蜘蛛网了反爬虫策略及破解方法作者出蜘蛛网了反爬虫策略及破解方法作者出蜘蛛网了反爬虫策略及破解方法爬虫和反爬的对抗一直在进行着…为了帮助更好的进行爬虫行为以及反爬，https://www.cnblogs.com/micro-chen/p/8676312.html

试了试下面的代码，也是可以的，但是会报警告

headers={'User-Agent':'Baiduspider'}

写python爬虫的第一天，拿百度练手遇到 “ 被反爬遇到＜title＞百度安全验证＜/title＞ ” 的解决方案相关推荐

python基础教程第三版豆瓣-Python爬虫入门教程：豆瓣读书练手爬虫
点击蓝字"python教程"关注我们哟! 前言 Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及 ...
python爬虫进阶-汽车之家贴吧信息（字体反爬-动态映射）
目的获取汽车之家贴吧的内容信息详细需求汽车之家贴吧思路解析一.F12获取目标信息-进行分析二.字体反爬解析-根据上一篇的文章,直接搜索关键词就好三根据其后的链接,保存为ttf在本地,查 ...
python爬虫笔记四：大众点评店铺信息（字体反爬-静态映射）
https://jia666666.blog.csdn.net/article/details/108885263 里面讲的非常详细了,不过点评有改动,里面的代码也要相应的改动一下 #coding:u ...
从零开始写Python爬虫 --- 1.5 爬虫实践：获取百度贴吧内容
从零开始写Python爬虫 --- 1.5 爬虫实践: 获取百度贴吧内容 Ehco 5 个月前经过前期大量的学习与准备,我们重要要开始写第一个真正意义上的爬虫了.本次我们要爬取的网站是:百度贴吧,一 ...
python 模拟浏览器selenium_从零开始写Python爬虫 --- 3.1 Selenium模拟浏览器
本来说好要写Mechanize模拟浏览器的,结果一看居然只支持2.x版本的Python,而且已经长久没有更新维护了,本着学新不学旧的原则,我决定跳过他,直接开学Selenium(其实就是我懒,逃 Se ...
python网络爬虫教程-教你从零开始学会写 Python 爬虫
原标题:教你从零开始学会写 Python 爬虫写爬虫总是非常吸引IT学习者,毕竟光听起来就很酷炫极客,我也知道很多人学完基础知识之后,第一个项目开发就是自己写一个爬虫玩玩. 其实懂了之后,写个爬虫脚 ...
python 小说爬虫_从零开始写Python爬虫 --- 1.7 爬虫实践：排行榜小说批量下载
从零开始写Python爬虫 --- 1.7 爬虫实践: 排行榜小说批量下载Ehco 5 个月前本来只是准备做一个爬起点小说名字的爬虫,后来想了一下,为啥不顺便把小说的内容也爬下来呢?于是我就写了这个 ...
python爬虫代理的使用_从零开始写Python爬虫 --- 2.4 爬虫实践：代理的爬取和验证...
爬网站的时候,由于各种原因,ip被锁了,这个时候我们就需要通过代理来突破封锁.网上有很多代理网站,付费和免费的都有,这次我们就来写一个scrapy爬虫,爬一些免费的代理下来用. 目标分析: 本次爬取了 ...
python写爬虫运行不了_python 打包运行不了零基础写python爬虫之爬虫的定义及URL构成...
一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一 ...

写python爬虫的第一天，拿百度练手遇到 “ 被反爬遇到＜title＞百度安全验证＜/title＞ ” 的解决方案

写python爬虫的第一天，拿百度练手遇到 “ 被反爬遇到＜title＞百度安全验证＜/title＞ ” 的解决方案相关推荐

最新文章

热门文章