Python爬虫学习第二章-1-requests模块简介
Python爬虫学习第二章-1-requests模块简介
这一章主要是介绍requests模块的相关知识以及使用
1、requests模块简介:
- 概述:是python中原生的一款基于网络请求的模块,高效简洁
- 作用:用来模拟浏览器发请求。
- 如何使用(模拟浏览器发请求的过程):指定url即指定网址;对当前url发起请求,如get请求;获取服务器响应的数据,如显示的页面数据;将爬取到的响应数据进行持久化存储, 可以作为使用requests模块的编码流程
- 实战编码:指定需求:爬取搜狗首页的页面数据
2、爬取搜狗首页的页面数据
import requests
if __name__ == "__main__":#step1:指定urlurl = 'https://www.sogou.com/'#进行UA伪装,在下一节会提到headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'} # 在url之后要紧接着进行UA伪装,也是定义一个headers#step2:发起请求,此处是发起get请求,第一个参数是指针对哪个url发起get请求response=requests.get(url=url) #get方法会返回一个响应对象#step3:获取响应数据,(响应数据应该是在响应对象中并且请求成功之后才会有响应对象,所以在发起请求之后得定义一个响应对象接受get方法的返回值,)page_text=response.text #text属性是返回一组字符串,该字符串即为获取的响应数据print(page_text)#step4:持久化存储with open('./sougo.html','w',encoding='utf-8') as fp:fp.write(page_text)print("爬取数据结束")
结果就是爬取到了搜狗首页的源码数据(这里仅展示一个截图)
注意with open的使用:with open用来打开本地文件的,处理完文件后,会自动关闭文件,无需手动书写close()。
3、在pycharm中,可能会遇到文本过长,强制换行的情况,我根据网上的资料总结了一下:
方法一:File–>settings–>Editor–>General–>Soft Wraps,把Use soft wraps in editor 这个选项的勾选去掉。截图如下:
方法二:View–>Active Edito,不选Use soft wraps ,截图如下
方法三:Code–>Reformat Code,截图如下
Python爬虫学习第二章-1-requests模块简介相关推荐
- Python爬虫学习第十一天---pymongo模块使用
Python爬虫学习第十一天-pymongo模块使用 一.安装pymongo模块 python3 -m pip install pymongo 二.pymongo模块的使用 1.配置基础项 user ...
- python爬虫笔记第二章
前言 你好! 这是基于b站2021年路飞学成爬虫教程的python爬虫学习笔记,主要是方便作者复习和回顾课程内容. 已经发布了第一章和第二章,可以在主页中查看. python爬虫笔记(第二章) 前言 ...
- 爬虫学习笔记(第二章)requests模块
文章目录 前言 第二章 request模块 简介 实战编码 ①爬取搜狗首页的页面数据 实战巩固 ②网页采集器 UA ③破解百度翻译 ④豆瓣电影爬取 ⑤肯德基餐厅位置爬取 ⑥药监总局相关数据爬取 前言 ...
- python爬虫学习第一章
<!DOCTYPE html> python爬虫第一章 python网络爬虫的学习 什么是网络爬虫 按照特定需求,从互联网中搜索有用信息网页进行过滤,就叫网络爬虫. 网络爬虫算法 当浏览信 ...
- python爬虫学习实践(一):requests库和正则表达式之淘宝爬虫实战
使用requests库是需要安装的,requests库相比urllib 库来说更高级方便一点,同时与scrapy相比较还是不够强大,本文主要介绍利用requests库和正则表达式完成一项简单的爬虫小项 ...
- 爬虫学习 ----- 第二章 爬取静态网站 ---------- 03 . re 模块学习 ---- re屠戮电影天堂
目录: 1. [案例]re屠戮电影天堂 1.目的: 1. 定位到2021新片精品 1. 出现错误??? 2. 网页乱码??? 2.从2021新片精品中提取到子页面的链接地址 3.请求子页面的链接地址, ...
- 网络爬虫学习第二弹:requests库的使用
requests库使用 requests库的功能与之前学习的urllib库类似,但功能更强大,实现也更简洁.下面是基本的使用方法. import requestsr=requests.get(&quo ...
- 【Python爬虫学习笔记3】requests库
在上一篇中学习了urllib库的基本使用,通过它我们可以完成爬虫中发送请求和处理响应的大部分功能,但在实际使用中多少会很繁琐,比如处理Cookie时需要创建handler和opener对象.正因为如此 ...
- Python爬虫学习框架介绍
对于初学者来说,摸索清楚一个领域的知识体系往往比单纯学习某个技术要重要得多,因为技术总会跟随时代发生快速变化,而知识体系往往变化较小,今天我们以自学的角度来了解一下Python爬虫的知识体系吧. 一. ...
最新文章
- Python基础教程— Struct模块
- wpf 如何设置弹出窗口必须关闭才能打开其他软件_Mac忘记登录密码?以防万一,必须收藏。...
- 使用Spring Boot隔离集成测试和模拟依赖项
- WildFly 8.0.0.Alpha1的发布和一些历史
- 33条C#、.Net经典面试题目及答案
- [转载] Python的生成器
- java测试闪退,安卓下测试运行,apk刚打开,就闪退了
- 第三章:3.4 处理登陆的请求
- 性能分析工具Linux perf使用经验
- EXT2文件系统简介
- MCSAMCP认证证书
- win7 计算机定时关机脚本,Win7制作定时关机bat脚本|Win7定时关机程序脚本
- Windbg分析蓝屏Dump文件
- 手机一键抠图软件哪个好?分享三个好用软件给你
- TiDB 产品常见问题
- Dreamweaver构建Blog全程实录
- 两场面试,一次心灵洗礼
- LCD屏的TCON、Source Driver、Gate Driver 、Gamma概念
- Python第一周学习总结
- 微信开挂怎么防止封号_为什么我的微信老是被封解决办法 微信如何防止被封号详细介绍...
热门文章
- java技术+tomcat+mysql
- 6个经典Python项目让你快速具备独立开发能力
- 计算机开机显示器无显示器,电脑开机后显示器为什么显示“无视频输入”?
- 卡通风格的渲染【Unity Shader入门精要14.1】
- Java两种多线程方式对比总结 模拟铁路售票案例
- asp动态网页设计选用服务器,ASP动态网页设计
- c语言程序设计的反思,C语言程序设计课程教学反思.doc
- 6s管理制度在于医院行政科的实施办法
- Android常用的框架
- 移动电源C语言程序,英集芯INJOINIC IP2716为移动电源提供完整Type-C的解决方案