第一步:安装requests

requests属于第三方模块,python里面没有自带requests库,所以呢第一步我们先要安装。

pip install requests

先找到终端然后再输入

第二步:导包

使用requests前出了安装完了,你好要导包啊,不导包怎么使用它呢

import requests

灰色代表他还没被使用

第三步:爬取开始

直接爬取百度吧

导包-----因为我们是给服务端发送请求,所以我们要有个变量接收他。

利用get获取网址的数据,然后用print输出网页的数据

这样输出的数据也没提示百度禁止访问,也不确定是不是百度禁止爬取。评论区等大佬教教我。但比较下面修改设置请求头后访问,还是下面的数据看起来比较对。

大家也注意到了,我后面有个headers参数,这是我设置了请求头。因为有很多网站禁止爬取,所以利用设置请求头,设置成一个网站可以访问的请求头来反爬数据。

简单讲讲怎么设置,这篇博客主要目的还是爬取,后面会出一篇设置请求头的文章。

运用python和request爬取百度的请求头

获取输出的请求头

因为我们使用python爬取数据,所以访问网站的用户代理User-Agant就是python

修改后获取输出的请求头

扩展一下:

有人使用postman测试接口

postman也可以转为代码在python运行

打开postman,创建新的请求路径,输入——点击</>,就会出来代码,可以选择各种语言的代码,既然要在python上运行,就选择python

加油加油加油兄弟们,努力学下去

学习补充:

获取状态码:status_code

成功控制台就返回200

请求一个不存在的网址

控制台输出404

获取网页的编码:encoding

这个网址的编码是utf-8

获取消息体字节串内容:content

获取的内容是utf-8的编码,可以对其进行解码

运用decode解码

呈现的内容不比上面顺眼多了

 如果想要获取里面单个的值,要对其反序列化,也就是把上面的json格式转换为Python的对象

一定要导入json包,import json,使用json的loads方法对其转换。

根据上面代码,现在获取的数据已经不是json格式就可以获取Host的值,不转换的话也可以获取,但是博主不会也很麻烦。

如果大家觉得这样取值比较麻烦,又简单方法,但是还要转换json。直接对自己的创建的变量使用json方法就可以了。

注意:获取的响应体里的内容必须是json格式,如果不是,就会报错。

Python使用Requests库爬取网页数据相关推荐

  1. 使用Python的requests库爬取网页表情包

    一.目标网站 喜羊羊QQ表情,可爱的懒羊羊搞笑图片 二.开发思路 安装项目所需环境 导入所需的类库 定义一个函数用来获取图片 a. 获取网页源代码 b. 获取源代码中所有的图片 c. 筛选出目标图片 ...

  2. python使用requests库爬取淘宝指定商品信息

    python使用requests库爬取淘宝指定商品信息 在搜索栏中输入商品 通过F12开发者工具抓包我们知道了商品信息的API,同时发现了商品数据都以json字符串的形式存储在返回的html内 解析u ...

  3. python爬虫scrapy框架爬取网页数据_Scrapy-Python

    scrapy Scrapy:Python的爬虫框架 实例Demo 抓取:汽车之家.瓜子.链家 等数据信息 版本+环境库 Python2.7 + Scrapy1.12 初窥Scrapy Scrapy是一 ...

  4. 【Python成长之路】Python爬虫 --requests库爬取网站乱码(\xe4\xb8\xb0\xe5\xa)的解决方法【华为云分享】

    [写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\ ...

  5. 【Python成长之路】Python爬虫 --requests库爬取网站乱码(\xe4\xb8\xb0\xe5\xaf\x8c\xe7\x9)的解决方法

    [写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\ ...

  6. 使用python的requests库爬取微信公众号文章中的图片

    1.首先导入我们需要的库: import requests from lxml import etree import os 以某篇文章为例,复制该文章连接: 2.使用requests库获取该网址的响 ...

  7. 利用requests库爬取网页获取数据

    一.get请求 测试小例子: # 获取一个get请求,用get的方式直接访问网址 url = 'https://movie.douban.com/top250' response = requests ...

  8. python获取网页json返回空_Python用requests库爬取返回为空的解决办法

    首先介紹一下我們用360搜索派取城市排名前20. 我们爬取的网址:https://baike.so.com/doc/24368318-25185095.html 我们要爬取的内容: html字段: r ...

  9. 用python爬取qq空间内容_利用Fiddler抓包和py的requests库爬取QQ空间说说内容并写入文件...

    [Python] 纯文本查看 复制代码#!C:\Program Files\Python36 python # -*- coding: UTF-8 -*- """ @au ...

  10. python爬豆瓣电视剧_python requests库爬取豆瓣电视剧数据并保存到本地详解

    首先要做的就是去豆瓣网找对应的接口,这里就不赘述了,谷歌浏览器抓包即可,然后要做的就是分析返回的json数据的结构: https://movie.douban.com/j/search_subject ...

最新文章

  1. 配置网口相机(大恒水星相机)
  2. [云炬创业基础笔记]第一章创业环境测试8
  3. 单片机检测stc没反应_stc单片机无法烧录,一直正在检测目标单片机怎么办?
  4. WPF:Graphics绘图--Shapes形状
  5. 订单不断,我是这样做的
  6. linux下mqm添加用户,Linux 下MQ的安装和配置亲测
  7. 三张表有重复字段_什么?搞不定Kafka重复消费?
  8. php三个表格,phpspreadsheet-excel工作表中有多个“格式为表”的表
  9. Shell.FlyoutHeaderTemplate
  10. 完全公平调度 c语言,使用完全公平调度程序(CFS)进行多任务处理
  11. java学术论文_java毕业设计论文-学术参考网
  12. java.gg_JAVA公文管理系统
  13. Qt Creator 的下载与安装
  14. 物流项目管理的团队建设 (zt)
  15. 按下手机home键,选择自己的launcher
  16. Rabbitmq小书
  17. and true和if都是python语言的保留字_python语言保留字有哪些
  18. Sentienl学习笔记
  19. Java聊天程序设计
  20. 豪斯曼检验matlab,面板工具变量与内生性操作及应用(固定随机、豪斯曼检验、过度识别检验、预测等)...

热门文章

  1. csgo如何旋转跳?如何连跳
  2. U盘Windows PE 安装系统简易教程
  3. flink Flink在监控流计算中的应用
  4. 计算机网络白龙飞,成电等你来 | 你的辅导员已上线,男神辅导员闪亮登场(一)...
  5. 关于左连接查询出现排序问题
  6. windows10定时关机如何设置
  7. 影子卫士中文注册版+系统保护的尚方宝剑、、
  8. 域用户账户、组的管理
  9. QT WA_TranslucentBackground CEF界面无法展现 透明无效
  10. WebSphere漏洞总结复现