第1关:request模块的基本使用

任务描述
本关我们将使用 Python 程序,实现通过网页的 url,获得服务器返回的超文本文件,并保存到 txt 文件的功能。

相关知识
下面通过文字进一步详细描述获取网页并保存至本地的实现方法。

访问 url 的get()和post()方法
当我们想要在浏览器中打开一个网页时,需要在浏览器的地址栏中输入该网页的 url,例如在地址栏中输入百度搜索网站的首页 url:
https://www.baidu.com/

点击确认后,浏览器将向服务器发出一个对该网页的请求;服务器端收到请求后,会返回该网页的超文本文件,浏览器收到服务器端发来的网页超文本文件后,对其进行解析,然后在窗口中显示该超文本文件对应的网页。如图 1 所示。

Python 提供了 requests 模块用来处理网页的 url,主要有 get() 和 post() 两个方法,分别对应网页的 Get 请求和 Post 请求。get() 和 post() 方法有以下几个参数:

url:指定请求 URL;

params:字典类型,指定请求参数,GET 请求时使用;

data: 字典类型,指定表单信息,常用于发送 POST 请求;

headers:字典类型,指定请求头;

proxies:字典类型,指定使用的代理;

cookies:字典类型,指定 Cookie;

auth:元组类型ÿ

Python数据采集与处理之网页爬取相关推荐

  1. Python数据分析:爬虫从网页爬取数据需要几步?

    对于数据分析师来说,数据获取通常有两种方式,一种是直接从系统本地获取数据,另一种是爬取网页上的数据,爬虫从网页爬取数据需要几步?总结下来,Python爬取网页数据需要发起请求.获取响应内容.解析数据. ...

  2. Python简单数据处理(静态网页爬取,jupter实现)

    对于哔哩哔哩动漫排行榜网页信息的爬取及处理(静态网页) 1.数据来源: 哔哩哔哩排行榜 2.数据描述: 利用python的第三方库requests对网页进行爬取 利用re库提供的正则表达式对网页数据进 ...

  3. python爬虫学习(二) 简易网页爬取

    先在网页进行搜索 得到url https://www.sogou.com/web?query=波晓张&_asf=www.sogou.com&_ast=&w=01019900&a ...

  4. python 实现分步累加_Python网页爬取分步指南

    python 实现分步累加 As data scientists, we are always on the look for new data and information to analyze ...

  5. mac如何用python爬网页数据_Mac——利用Python进行网页爬取

    Mac--利用Python进行网页爬取 目标:利用Python爬取网页中的指定内容,例如,爬取百度百科网页中四川省的别名.html 输出:四川省的别名为:川.蜀.天府之国python 我的经验,网页爬 ...

  6. Python网络爬虫数据采集实战:同花顺动态网页爬取

    前文的爬虫都建立在静态网页基础之上,首先通过请求网站url获取到网页源代码.之后对源代码进行信息提取进而存储即可,本文则针对动态网页进行数据采集,首先介绍Ajax相关理论,之后实战爬取同花顺动态网页, ...

  7. Python网络爬虫数据采集实战:Scrapy框架爬取QQ音乐存入MongoDB

    ​    通过前七章的学习,相信大家对整个爬虫有了一个比较全貌的了解 ,其中分别涉及四个案例:静态网页爬取.动态Ajax网页爬取.Selenium浏览器模拟爬取和Fillder今日头条app爬取,基本 ...

  8. Python爬虫: 单网页 所有静态网页 动态网页爬取

    Python爬虫: 单网页 所有静态网页 动态网页爬取 前言:所有页代码主干均来自网上!!!感谢大佬们. 其实我对爬虫还挺感兴趣的,因为我玩instagram(需要科学上网),上过IG的人都知道IG虽 ...

  9. 爬取电影资源之网页爬取篇(python)

    不知道大家平常喜不喜欢待在宿舍一个人看电影? 作为一个高龄屌丝,电影对我来说是必不可少的.平常无聊时自己一个人待在宿舍看看电影,看看书. (人闲下来就会胡思乱想,不能让寂寞侵蚀自己的内心) 其实还是喜 ...

最新文章

  1. 如何获得images.xcassets 中图片的路径?
  2. Java 理论与实践: 修复 Java 内存模型,第 2 部分 (VOLATILE, FINA...
  3. [转载]在SQL Server数据库之间进行数据导入导出,OPENDATASOURCE
  4. 模24的8421BCD码计数器(Verilog HDL语言描述)(仿真与综合)
  5. 如何在Linux使用Eclipse + CDT开发C/C++程序 OS Linux C/C++ gcc
  6. 导师会指导改matlab程序吗,导师指导记录.docx
  7. Hive:hive is not allowed to impersonate anonymous
  8. Apple Configurator 2下载 Apple Configurator 2 for mac官方最新版 支持M1
  9. java里包含怎么算_java中怎么判断一个字符串中包含某个字符或字符串
  10. FluorineFx:远程共享对象(Remote SharedObjects)
  11. Backdoor.Zegost木马病毒分析(一)
  12. 洛谷 P4704 太极剑【贪心】
  13. 韩非子《五蠹》全文及译文
  14. VS2017+OpenCV3.4.1
  15. 【kali-漏洞利用】(3.4)免杀Payload 生成工具(下):Veil后门使用、监听失败原因
  16. 网络舆情信息查找网站与怎么查的方法详解
  17. Linux无线网卡配置
  18. R语言用WinBUGS 软件对学术能力测验(SAT)建立分层模型
  19. react 、table中复选框多个只能选择一个
  20. 计算机英语讲课笔记09

热门文章

  1. Python-100-Days-Day2
  2. 5g工业路由器的电梯远程监测管理应用
  3. 在线jQuery秒表
  4. 营养过剩也是一种营养不良
  5. 折线平行线的计算方法
  6. 《计算机组成与系统结构(第二版) 裘雪红 李伯成 西安电子科技大学出版社》课后习题答案(带解析)(一)
  7. 墨尔本大学计算机科学博士怎么样,墨尔本大学计算机科学专业怎么样
  8. 重装系统“Windows无法安装到这个磁盘中,选中的磁盘具有MBR分区表”
  9. 《遥感图像处理笔记》第1章
  10. 设计师必看中文字体排版法则