用百度进行爬虫练习和常见的问题

目标

确认url
向百度发送请求
获取响应
获取到百度首页的数据保存

工具

谷歌浏览器
pycharm

执行

首先这里使用的谷歌浏览器（默认打开百度）

#导入requrests 模块
import requests# 1.确认url
#查看百度界面
#按f12——>network——>刷新一下界面——>百度搜索——>Header（确认url和请求方法）
url="https://www.baidu.com/"# 2.发送请求获得响应
# 确认请求方法 Method:GET
response=requests.get(url=url)
# 查看响应内容 文本内容 <Response[200]> 响应成功
print(response)# 3.确认编码格式
response.encoding="utf-8"# 4 保存到 html 文件
with open("百度一下.html","w",encoding="utf-8") as file1:# 文件对象 的write方法只能写入字符串类型数据 重点file1.write(data)

可能出现的问题

1.反扒，安全认证不通过

遇到错误
raise SSLError(e, request=request)
requests.exceptions.SSLError: 。。。

原因：被反扒了   绕过ssl验证
解决方法：response=requests.get(url=url，verify=False)
来跳过安全验证

2.返回值是200,输出的响应结果里出现乱码

原因没有指定编解码格式
可以查看返回值的编解码
code=response.encoding
print(code)
设置urf-8
response.encoding="utf-8"

3.输出结果无法用浏览器打开

原因：浏览器设置环境变量，设置一下即可

用百度进行爬虫练习和常见的问题相关推荐

爬虫学习记录1：通讯协议、网络模型、爬虫分类及常见概念
通讯协议.网络模型.爬虫分类及常见概念 1.通讯协议 1.1端口若把一个ip地址比作一栋房子,那么端口就是进入这座房子的门. 为了标识应用程序,所有出现了端口. 不同的端口代表不同的应用程序,通过数 ...
【爬虫进阶】常见的反爬手段和解决方法（建议收藏）
爬虫进阶:常见的反爬手段和解决思路 1 服务器反爬的原因 2 服务器常反什么样的爬虫 3 反爬虫领域常见的一些概念 4 反爬的三个方向 5 常见基于身份识别进行反爬 5.1 通过headers字段来反 ...
Node: Puppeteer + 图像识别实现百度指数爬虫
之前看过一篇脑洞大开的文章,介绍了各个大厂的前端反爬虫技巧,但也正如此文所说,没有100%的反爬虫方法,本文介绍一种简单的方法,来绕过所有这些前端反爬虫手段. 下面的代码以百度指数为例,代码已经封装成 ...
爬虫天坑系列-百度指数爬虫
原文地址:http://blog.shenjianshou.cn/?p=170 giithub:https://github.com/TTyb/Baiduindex 最近有很多朋友跟我说," ...
python爬取百度文库doc_Python百度文库爬虫之doc文件
Python百度文库爬虫之doc文件说明:此文件是在爬取txt文件下的基础进行的,因此重复内容会一笔带过,不懂请看前面爬取txt文件链接对于文件的所有类型,我都会用一篇文章进行说明,链接: 一.网 ...
最简洁的百度图片爬虫
今天写了一个百度图片爬虫,代码如下 import requests import re import os import timeheaders = {'User-Agent':'Mozilla/5 ...
最新百度翻译爬虫获取sign（python爬虫）
环境: python3 直接上代码: Cookie.User-Agent 填自己的 1.BaiDuTranslateWeb.py import requests import execjs impor ...
爬虫系列之百度云爬虫
项目地址:GitHub - gudegg/yunSpider: 百度云网盘爬虫百度云爬虫安装使用安装go与设置gopath clone项目到gopath目录安装依赖 go get github ...
python爬虫：百度图片爬虫代码
代码里的logid我也不确定有没有时效,如果有的话请大家自行替换,就在数据包标头那里,如图代码来了,来了,来了....... 详细解说在这里:百度图片爬虫代码详解 #Author:Griffy #D ...

用百度进行爬虫练习和常见的问题

用百度进行爬虫练习和常见的问题

目标

工具

执行

可能出现的问题

1.反扒，安全认证不通过

2.返回值是200,输出的响应结果里出现乱码

3.输出结果无法用浏览器打开

用百度进行爬虫练习和常见的问题相关推荐

最新文章

热门文章