用百度进行爬虫练习和常见的问题
用百度进行爬虫练习和常见的问题
目标
- 确认url
- 向百度发送请求
- 获取响应
- 获取到百度首页的数据保存
工具
谷歌浏览器
pycharm
执行
首先这里使用的谷歌浏览器(默认打开百度)
#导入requrests 模块
import requests# 1.确认url
#查看百度界面
#按f12——>network——>刷新一下界面——>百度搜索——>Header(确认url和请求方法)
url="https://www.baidu.com/"# 2.发送请求获得响应
# 确认请求方法 Method:GET
response=requests.get(url=url)
# 查看响应内容 文本内容 <Response[200]> 响应成功
print(response)# 3.确认编码格式
response.encoding="utf-8"# 4 保存到 html 文件
with open("百度一下.html","w",encoding="utf-8") as file1:# 文件对象 的write方法只能写入字符串类型数据 重点file1.write(data)
可能出现的问题
1.反扒,安全认证不通过
遇到错误
raise SSLError(e, request=request)
requests.exceptions.SSLError: 。。。
原因:被反扒了 绕过ssl验证
解决方法:response=requests.get(url=url,verify=False)
来跳过安全验证
2.返回值是200,输出的响应结果里出现乱码
原因没有指定编解码格式
可以查看返回值的编解码
code=response.encoding
print(code)
设置urf-8
response.encoding="utf-8"
3.输出结果无法用浏览器打开
原因:浏览器设置环境变量,设置一下即可
用百度进行爬虫练习和常见的问题相关推荐
- 爬虫学习记录1:通讯协议、网络模型、爬虫分类及常见概念
通讯协议.网络模型.爬虫分类及常见概念 1.通讯协议 1.1端口 若把一个ip地址比作一栋房子,那么端口就是进入这座房子的门. 为了标识应用程序,所有出现了端口. 不同的端口代表不同的应用程序,通过数 ...
- 【爬虫进阶】常见的反爬手段和解决方法(建议收藏)
爬虫进阶:常见的反爬手段和解决思路 1 服务器反爬的原因 2 服务器常反什么样的爬虫 3 反爬虫领域常见的一些概念 4 反爬的三个方向 5 常见基于身份识别进行反爬 5.1 通过headers字段来反 ...
- Node: Puppeteer + 图像识别 实现百度指数爬虫
之前看过一篇脑洞大开的文章,介绍了各个大厂的前端反爬虫技巧,但也正如此文所说,没有100%的反爬虫方法,本文介绍一种简单的方法,来绕过所有这些前端反爬虫手段. 下面的代码以百度指数为例,代码已经封装成 ...
- 爬虫天坑系列-百度指数爬虫
原文地址:http://blog.shenjianshou.cn/?p=170 giithub:https://github.com/TTyb/Baiduindex 最近有很多朋友跟我说," ...
- python爬取百度文库doc_Python百度文库爬虫之doc文件
Python百度文库爬虫之doc文件 说明:此文件是在爬取txt文件下的基础进行的,因此重复内容会一笔带过,不懂请看前面爬取txt文件链接 对于文件的所有类型,我都会用一篇文章进行说明,链接: 一.网 ...
- 最简洁的百度图片爬虫
今天写了一个 百度图片爬虫,代码如下 import requests import re import os import timeheaders = {'User-Agent':'Mozilla/5 ...
- 最新百度翻译爬虫 获取sign(python爬虫)
环境: python3 直接上代码: Cookie.User-Agent 填自己的 1.BaiDuTranslateWeb.py import requests import execjs impor ...
- 爬虫系列之百度云爬虫
项目地址:GitHub - gudegg/yunSpider: 百度云网盘爬虫 百度云爬虫 安装使用 安装go与设置gopath clone项目到gopath目录 安装依赖 go get github ...
- python爬虫:百度图片爬虫代码
代码里的logid我也不确定有没有时效,如果有的话请大家自行替换,就在数据包标头那里,如图 代码来了,来了,来了....... 详细解说在这里:百度图片爬虫代码详解 #Author:Griffy #D ...
最新文章
- 四川计算机职业技术学院,四川职业技术学院
- 小学生python入门-周边 | 小学生都开始学Python了,你还在等什么?
- html 显示代码块,使用Pre在文章中显示代码块 - 文章教程
- java碳架公路车如何_骑全碳公路车是怎样的体验?
- mysql导出单表数据
- Android快捷键
- Maven拉取私服Jar包和发布jar包到maven私服
- [CB]TForm应用技巧
- MVVM教程(2):
- html5退出全屏触发的方法_在实战中学??typescript - 实现浏览器全屏(100行)
- ffmpeg drawtext文本超出视频画幅处理
- 接口测试工具-Jmeter使用笔记(五:正则表达式提取器)
- python生成手写文字图片_使用PHP辅助 快速制作一套自己的手写字体实践
- Word 中几个较有用的宏
- 光学efl_关于光学设计使用以及理解
- phpdesigner 配置SVN
- mysql中标识列是什么意思_数据库标识列是什么意思
- 日语从0到N2语法(一)判定句+疑问句分类+存在句+形容词
- java switch基础介绍及具体使用方法
- 微信支付获取prepay_id以及回调地址