Python使用Requests库爬取网页数据
第一步:安装requests
requests属于第三方模块,python里面没有自带requests库,所以呢第一步我们先要安装。
pip install requests
先找到终端然后再输入
第二步:导包
使用requests前出了安装完了,你好要导包啊,不导包怎么使用它呢
import requests
灰色代表他还没被使用
第三步:爬取开始
直接爬取百度吧
导包-----因为我们是给服务端发送请求,所以我们要有个变量接收他。
利用get获取网址的数据,然后用print输出网页的数据
这样输出的数据也没提示百度禁止访问,也不确定是不是百度禁止爬取。评论区等大佬教教我。但比较下面修改设置请求头后访问,还是下面的数据看起来比较对。
大家也注意到了,我后面有个headers参数,这是我设置了请求头。因为有很多网站禁止爬取,所以利用设置请求头,设置成一个网站可以访问的请求头来反爬数据。
简单讲讲怎么设置,这篇博客主要目的还是爬取,后面会出一篇设置请求头的文章。
运用python和request爬取百度的请求头
获取输出的请求头
因为我们使用python爬取数据,所以访问网站的用户代理User-Agant就是python
修改后获取输出的请求头
扩展一下:
有人使用postman测试接口
postman也可以转为代码在python运行
打开postman,创建新的请求路径,输入——点击</>,就会出来代码,可以选择各种语言的代码,既然要在python上运行,就选择python
加油加油加油兄弟们,努力学下去
学习补充:
获取状态码:status_code
成功控制台就返回200
请求一个不存在的网址
控制台输出404
获取网页的编码:encoding
这个网址的编码是utf-8
获取消息体字节串内容:content
获取的内容是utf-8的编码,可以对其进行解码
运用decode解码
呈现的内容不比上面顺眼多了
如果想要获取里面单个的值,要对其反序列化,也就是把上面的json格式转换为Python的对象
一定要导入json包,import json,使用json的loads方法对其转换。
根据上面代码,现在获取的数据已经不是json格式就可以获取Host的值,不转换的话也可以获取,但是博主不会也很麻烦。
如果大家觉得这样取值比较麻烦,又简单方法,但是还要转换json。直接对自己的创建的变量使用json方法就可以了。
注意:获取的响应体里的内容必须是json格式,如果不是,就会报错。
Python使用Requests库爬取网页数据相关推荐
- 使用Python的requests库爬取网页表情包
一.目标网站 喜羊羊QQ表情,可爱的懒羊羊搞笑图片 二.开发思路 安装项目所需环境 导入所需的类库 定义一个函数用来获取图片 a. 获取网页源代码 b. 获取源代码中所有的图片 c. 筛选出目标图片 ...
- python使用requests库爬取淘宝指定商品信息
python使用requests库爬取淘宝指定商品信息 在搜索栏中输入商品 通过F12开发者工具抓包我们知道了商品信息的API,同时发现了商品数据都以json字符串的形式存储在返回的html内 解析u ...
- python爬虫scrapy框架爬取网页数据_Scrapy-Python
scrapy Scrapy:Python的爬虫框架 实例Demo 抓取:汽车之家.瓜子.链家 等数据信息 版本+环境库 Python2.7 + Scrapy1.12 初窥Scrapy Scrapy是一 ...
- 【Python成长之路】Python爬虫 --requests库爬取网站乱码(\xe4\xb8\xb0\xe5\xa)的解决方法【华为云分享】
[写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\ ...
- 【Python成长之路】Python爬虫 --requests库爬取网站乱码(\xe4\xb8\xb0\xe5\xaf\x8c\xe7\x9)的解决方法
[写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\ ...
- 使用python的requests库爬取微信公众号文章中的图片
1.首先导入我们需要的库: import requests from lxml import etree import os 以某篇文章为例,复制该文章连接: 2.使用requests库获取该网址的响 ...
- 利用requests库爬取网页获取数据
一.get请求 测试小例子: # 获取一个get请求,用get的方式直接访问网址 url = 'https://movie.douban.com/top250' response = requests ...
- python获取网页json返回空_Python用requests库爬取返回为空的解决办法
首先介紹一下我們用360搜索派取城市排名前20. 我们爬取的网址:https://baike.so.com/doc/24368318-25185095.html 我们要爬取的内容: html字段: r ...
- 用python爬取qq空间内容_利用Fiddler抓包和py的requests库爬取QQ空间说说内容并写入文件...
[Python] 纯文本查看 复制代码#!C:\Program Files\Python36 python # -*- coding: UTF-8 -*- """ @au ...
- python爬豆瓣电视剧_python requests库爬取豆瓣电视剧数据并保存到本地详解
首先要做的就是去豆瓣网找对应的接口,这里就不赘述了,谷歌浏览器抓包即可,然后要做的就是分析返回的json数据的结构: https://movie.douban.com/j/search_subject ...
最新文章
- 配置网口相机(大恒水星相机)
- [云炬创业基础笔记]第一章创业环境测试8
- 单片机检测stc没反应_stc单片机无法烧录,一直正在检测目标单片机怎么办?
- WPF:Graphics绘图--Shapes形状
- 订单不断,我是这样做的
- linux下mqm添加用户,Linux 下MQ的安装和配置亲测
- 三张表有重复字段_什么?搞不定Kafka重复消费?
- php三个表格,phpspreadsheet-excel工作表中有多个“格式为表”的表
- Shell.FlyoutHeaderTemplate
- 完全公平调度 c语言,使用完全公平调度程序(CFS)进行多任务处理
- java学术论文_java毕业设计论文-学术参考网
- java.gg_JAVA公文管理系统
- Qt Creator 的下载与安装
- 物流项目管理的团队建设 (zt)
- 按下手机home键,选择自己的launcher
- Rabbitmq小书
- and true和if都是python语言的保留字_python语言保留字有哪些
- Sentienl学习笔记
- Java聊天程序设计
- 豪斯曼检验matlab,面板工具变量与内生性操作及应用(固定随机、豪斯曼检验、过度识别检验、预测等)...