博主第一次写博文,第一次学爬虫,就是想分享,大家见怪不怪,

首先我设置了一个自定义UA代理池并没有采用插件pip install fake-useragent形式进行随机获取print(ua.ie)

下面是我修改了第一个错误之后的程序,我第一次写的是

ua={"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:65.0) Gecko/20100101 Firefox/65.0",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:65.0) Gecko/20100101 Firefox/65.0"
}
url = 'http://www.baidu.com/'
headers = ua_info.a
req = request.Request(url=url, headers=headers)
res = urllib.request.urlopen(req)
#html = res.read().decode('utf-8')
print(html)

遇到的第一个问题:

Traceback (most recent call last):
File "C:\Programs\Python\pythonProject\main.py", line 25, in
req = request.Request(url=url, headers=headers)
File "C:\Programs\Python\Python39\lib\urllib\request.py", line 326, in init
for key, value in headers.items():
AttributeError: 'str' object has no attribute 'items'Process finished with exit code 1

改好第一个问题之后的程序

ua_list = ['Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11','User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11','Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1','Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
]
a = random.choice(ua_list)
print(a)
url = 'http://www.baidu.com/'
rs1 = ua_info.a
headers = {'User-Agent': rs1}# 1、创建请求对象,包装ua信息
# req = request.Request(url=url, headers=headers)query_string = {'wd': '爬虫'
}
result = parse.urlencode(query_string)
url1 = 'http://www.baidu.com/s?{}'.format(result)
req = request.Request(url=url1, headers=headers)
res = urllib.request.urlopen(req)
html = res.read().decode('utf-8')
print(html)

爬个五次吧,出现了下面结果

<!DOCTYPE html>
<html lang="zh-CN">
<head><meta charset="utf-8"><title>百度安全验证</title><meta http-equiv="Content-Type" content="text/html; charset=utf-8"><meta name="apple-mobile-web-app-capable" content="yes"><meta name="apple-mobile-web-app-status-bar-style" content="black"><meta name="viewport" content="width=device-width, user-scalable=no, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0"><meta name="format-detection" content="telephone=no, email=no"><link rel="shortcut icon" href="https://www.baidu.com/favicon.ico" type="image/x-icon"><link rel="icon" sizes="any" mask href="https://www.baidu.com/img/baidu.svg"><meta http-equiv="X-UA-Compatible" content="IE=Edge"><meta http-equiv="Content-Security-Policy" content="upgrade-insecure-requests"><link rel="stylesheet" href="https://wappass.bdimg.com/static/touch/css/api/mkdjump_0635445.css" />
</head>
<body><div class="timeout hide"><div class="timeout-img"></div><div class="timeout-title">网络不给力,请稍后重试</div><button type="button" class="timeout-button">返回首页</button></div><div class="timeout-feedback hide"><div class="timeout-feedback-icon"></div><p class="timeout-feedback-title">问题反馈</p></div>

查百度解决方案让我在headers中加个参数,并说明找到的位置,并且已经得到了解决,

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36 Edg/83.0.478.50','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9'
}

好奇之下我查了爬虫与反爬的对抗,如下

文章链接:反爬虫策略及破解方法 - 特洛伊-Micro - 博客园反爬虫策略及破解方法 作者出蜘蛛网了 反爬虫策略及破解方法 作者出蜘蛛网了 反爬虫策略及破解方法 作者出蜘蛛网了 反爬虫策略及破解方法爬虫和反爬的对抗一直在进行着…为了帮助更好的进行爬虫行为以及反爬,https://www.cnblogs.com/micro-chen/p/8676312.html

试了 试下面的代码,也是可以的,但是会报警告

headers={'User-Agent':'Baiduspider'}

写python爬虫的第一天,拿百度练手遇到 “ 被反爬遇到<title>百度安全验证</title> ” 的解决方案相关推荐

  1. python基础教程第三版豆瓣-Python爬虫入门教程:豆瓣读书练手爬虫

    点击蓝字"python教程"关注我们哟! 前言 Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及 ...

  2. python爬虫进阶-汽车之家贴吧信息(字体反爬-动态映射)

    目的 获取汽车之家贴吧的内容信息 详细需求 汽车之家贴吧 思路解析 一.F12获取目标信息-进行分析 二.字体反爬解析-根据上一篇的文章,直接搜索关键词就好 三 根据其后的链接,保存为ttf在本地,查 ...

  3. python爬虫笔记四:大众点评店铺信息(字体反爬-静态映射)

    https://jia666666.blog.csdn.net/article/details/108885263 里面讲的非常详细了,不过点评有改动,里面的代码也要相应的改动一下 #coding:u ...

  4. 从零开始写Python爬虫 --- 1.5 爬虫实践: 获取百度贴吧内容

    从零开始写Python爬虫 --- 1.5 爬虫实践: 获取百度贴吧内容 Ehco 5 个月前 经过前期大量的学习与准备,我们重要要开始写第一个真正意义上的爬虫了.本次我们要爬取的网站是:百度贴吧,一 ...

  5. python 模拟浏览器selenium_从零开始写Python爬虫 --- 3.1 Selenium模拟浏览器

    本来说好要写Mechanize模拟浏览器的,结果一看居然只支持2.x版本的Python,而且已经长久没有更新维护了,本着学新不学旧的原则,我决定跳过他,直接开学Selenium(其实就是我懒,逃 Se ...

  6. python网络爬虫教程-教你从零开始学会写 Python 爬虫

    原标题:教你从零开始学会写 Python 爬虫 写爬虫总是非常吸引IT学习者,毕竟光听起来就很酷炫极客,我也知道很多人学完基础知识之后,第一个项目开发就是自己写一个爬虫玩玩. 其实懂了之后,写个爬虫脚 ...

  7. python 小说爬虫_从零开始写Python爬虫 --- 1.7 爬虫实践: 排行榜小说批量下载

    从零开始写Python爬虫 --- 1.7 爬虫实践: 排行榜小说批量下载Ehco 5 个月前 本来只是准备做一个爬起点小说名字的爬虫,后来想了一下,为啥不顺便把小说的内容也爬下来呢?于是我就写了这个 ...

  8. python爬虫代理的使用_从零开始写Python爬虫 --- 2.4 爬虫实践:代理的爬取和验证...

    爬网站的时候,由于各种原因,ip被锁了,这个时候我们就需要通过代理来突破封锁.网上有很多代理网站,付费和免费的都有,这次我们就来写一个scrapy爬虫,爬一些免费的代理下来用. 目标分析: 本次爬取了 ...

  9. python写爬虫运行不了_python 打包运行不了零基础写python爬虫之爬虫的定义及URL构成...

    一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一 ...

最新文章

  1. Shiny平台构建与R包开发(三)——数据输出
  2. AutoMl 的pytorch类似代码
  3. php empty();和isset();
  4. python-列表list和元组tuple
  5. selenium java项目_1)selenium+ java集成,待深度项目流程应用
  6. bzoj1293 [SCOI2009]生日礼物 单调队列
  7. 95-910-142-源码-FlinkSQL-FlinkSQL追加模式与缩进模式区别
  8. Bioconductor Workflows
  9. 判断文件夹存在_Excel VBA之FSO-2.3文件夹的移动
  10. 10个最佳的网站和App开发工具
  11. 07过去进行时,过去将来时,陈述句 变宾语从句(that 引导)
  12. 特斯拉中国裁员约10%,撕下了外企新能源的遮羞布!
  13. TLS1.3TLS1.2形式化分析
  14. 公牛和母牛(猜数字游戏)
  15. 遇到 *.7z001 *.7z.002 *.7z.003 如何用winrar解压缩
  16. 流程图的制作技巧分享,手把手教你如何绘制流程图
  17. 程序员必备的16个实用的网站
  18. 河南大学2019计算机专业录取分数线,2019河南大学本科录取分数线(含历年录取分数线)...
  19. Activity软盘配置
  20. Element表单验证规则

热门文章

  1. 适合数据库管理者的七个空间数据库(在2021版本中)
  2. 切比雪夫不等式例题讲解_【初一】含字母参数的一元一次不等式(组)的解题技巧...
  3. org.apache.jasper.JasperException 解决思路
  4. Zabbix 监控主机是否在线
  5. 罗素悖论催生现代模型论的诞生
  6. C语言中 ln(以自然对数e为底) lg(以十为底) 以及logab(以a为底,b为真数)的相关知识
  7. 将数据保存为CSV形式存储
  8. 基于Android电视机的ZigBee智能家居系统设计
  9. 2021河南高考成绩查询填写志愿,2021河南省高考能报几个志愿 高考志愿填报数量...
  10. Maven设置指定jar包依赖版本信息