Python爬虫学习第二章-1-requests模块简介

  这一章主要是介绍requests模块的相关知识以及使用

1、requests模块简介:

  • 概述:是python中原生的一款基于网络请求的模块,高效简洁
  • 作用:用来模拟浏览器发请求。
  • 如何使用(模拟浏览器发请求的过程):指定url即指定网址;对当前url发起请求,如get请求;获取服务器响应的数据,如显示的页面数据;将爬取到的响应数据进行持久化存储, 可以作为使用requests模块的编码流程
  • 实战编码:指定需求:爬取搜狗首页的页面数据

2、爬取搜狗首页的页面数据

import requests
if __name__ == "__main__":#step1:指定urlurl = 'https://www.sogou.com/'#进行UA伪装,在下一节会提到headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'}  # 在url之后要紧接着进行UA伪装,也是定义一个headers#step2:发起请求,此处是发起get请求,第一个参数是指针对哪个url发起get请求response=requests.get(url=url) #get方法会返回一个响应对象#step3:获取响应数据,(响应数据应该是在响应对象中并且请求成功之后才会有响应对象,所以在发起请求之后得定义一个响应对象接受get方法的返回值,)page_text=response.text #text属性是返回一组字符串,该字符串即为获取的响应数据print(page_text)#step4:持久化存储with open('./sougo.html','w',encoding='utf-8') as fp:fp.write(page_text)print("爬取数据结束")

结果就是爬取到了搜狗首页的源码数据(这里仅展示一个截图)

  注意with open的使用:with open用来打开本地文件的,处理完文件后,会自动关闭文件,无需手动书写close()。

3、在pycharm中,可能会遇到文本过长,强制换行的情况,我根据网上的资料总结了一下:
  方法一:File–>settings–>Editor–>General–>Soft Wraps,把Use soft wraps in editor 这个选项的勾选去掉。截图如下:

  方法二:View–>Active Edito,不选Use soft wraps ,截图如下

  方法三:Code–>Reformat Code,截图如下

Python爬虫学习第二章-1-requests模块简介相关推荐

  1. Python爬虫学习第十一天---pymongo模块使用

    Python爬虫学习第十一天-pymongo模块使用 一.安装pymongo模块 python3 -m pip install pymongo 二.pymongo模块的使用 1.配置基础项 user ...

  2. python爬虫笔记第二章

    前言 你好! 这是基于b站2021年路飞学成爬虫教程的python爬虫学习笔记,主要是方便作者复习和回顾课程内容. 已经发布了第一章和第二章,可以在主页中查看. python爬虫笔记(第二章) 前言 ...

  3. 爬虫学习笔记(第二章)requests模块

    文章目录 前言 第二章 request模块 简介 实战编码 ①爬取搜狗首页的页面数据 实战巩固 ②网页采集器 UA ③破解百度翻译 ④豆瓣电影爬取 ⑤肯德基餐厅位置爬取 ⑥药监总局相关数据爬取 前言 ...

  4. python爬虫学习第一章

    <!DOCTYPE html> python爬虫第一章 python网络爬虫的学习 什么是网络爬虫 按照特定需求,从互联网中搜索有用信息网页进行过滤,就叫网络爬虫. 网络爬虫算法 当浏览信 ...

  5. python爬虫学习实践(一):requests库和正则表达式之淘宝爬虫实战

    使用requests库是需要安装的,requests库相比urllib 库来说更高级方便一点,同时与scrapy相比较还是不够强大,本文主要介绍利用requests库和正则表达式完成一项简单的爬虫小项 ...

  6. 爬虫学习 ----- 第二章 爬取静态网站 ---------- 03 . re 模块学习 ---- re屠戮电影天堂

    目录: 1. [案例]re屠戮电影天堂 1.目的: 1. 定位到2021新片精品 1. 出现错误??? 2. 网页乱码??? 2.从2021新片精品中提取到子页面的链接地址 3.请求子页面的链接地址, ...

  7. 网络爬虫学习第二弹:requests库的使用

    requests库使用 requests库的功能与之前学习的urllib库类似,但功能更强大,实现也更简洁.下面是基本的使用方法. import requestsr=requests.get(&quo ...

  8. 【Python爬虫学习笔记3】requests库

    在上一篇中学习了urllib库的基本使用,通过它我们可以完成爬虫中发送请求和处理响应的大部分功能,但在实际使用中多少会很繁琐,比如处理Cookie时需要创建handler和opener对象.正因为如此 ...

  9. Python爬虫学习框架介绍

    对于初学者来说,摸索清楚一个领域的知识体系往往比单纯学习某个技术要重要得多,因为技术总会跟随时代发生快速变化,而知识体系往往变化较小,今天我们以自学的角度来了解一下Python爬虫的知识体系吧. 一. ...

最新文章

  1. Python基础教程— Struct模块
  2. wpf 如何设置弹出窗口必须关闭才能打开其他软件_Mac忘记登录密码?以防万一,必须收藏。...
  3. 使用Spring Boot隔离集成测试和模拟依赖项
  4. WildFly 8.0.0.Alpha1的发布和一些历史
  5. 33条C#、.Net经典面试题目及答案
  6. [转载] Python的生成器
  7. java测试闪退,安卓下测试运行,apk刚打开,就闪退了
  8. 第三章:3.4 处理登陆的请求
  9. 性能分析工具Linux perf使用经验
  10. EXT2文件系统简介
  11. MCSAMCP认证证书
  12. win7 计算机定时关机脚本,Win7制作定时关机bat脚本|Win7定时关机程序脚本
  13. Windbg分析蓝屏Dump文件
  14. 手机一键抠图软件哪个好?分享三个好用软件给你
  15. TiDB 产品常见问题
  16. Dreamweaver构建Blog全程实录
  17. 两场面试,一次心灵洗礼
  18. LCD屏的TCON、Source Driver、Gate Driver 、Gamma概念
  19. Python第一周学习总结
  20. 微信开挂怎么防止封号_为什么我的微信老是被封解决办法 微信如何防止被封号详细介绍...

热门文章

  1. java技术+tomcat+mysql
  2. 6个经典Python项目让你快速具备独立开发能力
  3. 计算机开机显示器无显示器,电脑开机后显示器为什么显示“无视频输入”?
  4. 卡通风格的渲染【Unity Shader入门精要14.1】
  5. Java两种多线程方式对比总结 模拟铁路售票案例
  6. asp动态网页设计选用服务器,ASP动态网页设计
  7. c语言程序设计的反思,C语言程序设计课程教学反思.doc
  8. 6s管理制度在于医院行政科的实施办法
  9. Android常用的框架
  10. 移动电源C语言程序,英集芯INJOINIC IP2716为移动电源提供完整Type-C的解决方案