用百度进行爬虫练习和常见的问题

目标

  1. 确认url
  2. 向百度发送请求
  3. 获取响应
  4. 获取到百度首页的数据保存

工具

谷歌浏览器
pycharm

执行

首先这里使用的谷歌浏览器(默认打开百度)

#导入requrests 模块
import requests# 1.确认url
#查看百度界面
#按f12——>network——>刷新一下界面——>百度搜索——>Header(确认url和请求方法)
url="https://www.baidu.com/"# 2.发送请求获得响应
# 确认请求方法 Method:GET
response=requests.get(url=url)
# 查看响应内容 文本内容 <Response[200]> 响应成功
print(response)# 3.确认编码格式
response.encoding="utf-8"# 4 保存到 html 文件
with open("百度一下.html","w",encoding="utf-8") as file1:# 文件对象 的write方法只能写入字符串类型数据 重点file1.write(data)

可能出现的问题

1.反扒,安全认证不通过

遇到错误
raise SSLError(e, request=request)
requests.exceptions.SSLError: 。。。

原因:被反扒了   绕过ssl验证
解决方法:response=requests.get(url=url,verify=False)
来跳过安全验证

2.返回值是200,输出的响应结果里出现乱码

原因没有指定编解码格式
可以查看返回值的编解码
code=response.encoding
print(code)
设置urf-8
response.encoding="utf-8"

3.输出结果无法用浏览器打开

原因:浏览器设置环境变量,设置一下即可

用百度进行爬虫练习和常见的问题相关推荐

  1. 爬虫学习记录1:通讯协议、网络模型、爬虫分类及常见概念

    通讯协议.网络模型.爬虫分类及常见概念 1.通讯协议 1.1端口 若把一个ip地址比作一栋房子,那么端口就是进入这座房子的门. 为了标识应用程序,所有出现了端口. 不同的端口代表不同的应用程序,通过数 ...

  2. 【爬虫进阶】常见的反爬手段和解决方法(建议收藏)

    爬虫进阶:常见的反爬手段和解决思路 1 服务器反爬的原因 2 服务器常反什么样的爬虫 3 反爬虫领域常见的一些概念 4 反爬的三个方向 5 常见基于身份识别进行反爬 5.1 通过headers字段来反 ...

  3. Node: Puppeteer + 图像识别 实现百度指数爬虫

    之前看过一篇脑洞大开的文章,介绍了各个大厂的前端反爬虫技巧,但也正如此文所说,没有100%的反爬虫方法,本文介绍一种简单的方法,来绕过所有这些前端反爬虫手段. 下面的代码以百度指数为例,代码已经封装成 ...

  4. 爬虫天坑系列-百度指数爬虫

    原文地址:http://blog.shenjianshou.cn/?p=170 giithub:https://github.com/TTyb/Baiduindex 最近有很多朋友跟我说," ...

  5. python爬取百度文库doc_Python百度文库爬虫之doc文件

    Python百度文库爬虫之doc文件 说明:此文件是在爬取txt文件下的基础进行的,因此重复内容会一笔带过,不懂请看前面爬取txt文件链接 对于文件的所有类型,我都会用一篇文章进行说明,链接: 一.网 ...

  6. 最简洁的百度图片爬虫

    今天写了一个 百度图片爬虫,代码如下 import requests import re import os import timeheaders = {'User-Agent':'Mozilla/5 ...

  7. 最新百度翻译爬虫 获取sign(python爬虫)

    环境: python3 直接上代码: Cookie.User-Agent 填自己的 1.BaiDuTranslateWeb.py import requests import execjs impor ...

  8. 爬虫系列之百度云爬虫

    项目地址:GitHub - gudegg/yunSpider: 百度云网盘爬虫 百度云爬虫 安装使用 安装go与设置gopath clone项目到gopath目录 安装依赖 go get github ...

  9. python爬虫:百度图片爬虫代码

    代码里的logid我也不确定有没有时效,如果有的话请大家自行替换,就在数据包标头那里,如图 代码来了,来了,来了....... 详细解说在这里:百度图片爬虫代码详解 #Author:Griffy #D ...

最新文章

  1. 四川计算机职业技术学院,四川职业技术学院
  2. 小学生python入门-周边 | 小学生都开始学Python了,你还在等什么?
  3. html 显示代码块,使用Pre在文章中显示代码块 - 文章教程
  4. java碳架公路车如何_骑全碳公路车是怎样的体验?
  5. mysql导出单表数据
  6. Android快捷键
  7. Maven拉取私服Jar包和发布jar包到maven私服
  8. [CB]TForm应用技巧
  9. MVVM教程(2):
  10. html5退出全屏触发的方法_在实战中学??typescript - 实现浏览器全屏(100行)
  11. ffmpeg drawtext文本超出视频画幅处理
  12. 接口测试工具-Jmeter使用笔记(五:正则表达式提取器)
  13. python生成手写文字图片_使用PHP辅助 快速制作一套自己的手写字体实践
  14. Word 中几个较有用的宏
  15. 光学efl_关于光学设计使用以及理解
  16. phpdesigner 配置SVN
  17. mysql中标识列是什么意思_数据库标识列是什么意思
  18. 日语从0到N2语法(一)判定句+疑问句分类+存在句+形容词
  19. java switch基础介绍及具体使用方法
  20. 微信支付获取prepay_id以及回调地址

热门文章

  1. Mcafee 升级包下载地址
  2. 268_点击加号和减号去加减数据
  3. jtag访问arm内核寄存器
  4. QQ空间注销了——2012年5月22日 23:06:25
  5. python推箱子小游戏_小伙利用Python自制一个推箱子小游戏!
  6. 使用openCV或PIL库修改图片的颜色
  7. 佛教常识答问阅读有感
  8. Day8(NLB服务搭建)
  9. C++ opencv高斯模糊
  10. .net 自动化测试神器AutoFixture +AutoMoq