我们介绍了一种新的爬取网页的方法–reuqests,并介绍了它的使用方法,我们还介绍了urllib与reuqests的区别。这节课我们通过一个实例–reuqests实现简单网页采集来加深大家对reuqests的学习。

1.最终采集的效果

**
**

我们打开搜狗浏览器,在搜索框,输入一个词,比如”扫黑风暴“,然后将搜索结果保存下来。

** **

2.开始进行网页采集

第一步。导入reuqests模块

第二步。分析网页类型

**
**

首先我们获取网页的地址,我们会发现网址很长,并且网址中包含我们输入的关键 词,这时我们的网址应该怎么写呢?最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你可以联系维:762459510 ,那个真的很不错,很多人进步都很快,需要你不怕吃苦哦!大家可以去添加上看一下~

我们只需要保留下图划痕线的部分,”query=扫黑风暴“这部分我们以关键词的形式加入到网址中:

然后我们接着分析通过检查–network–headers–Request Method可知是get类型,Content-Type:为text类型,因此我们就可以通过我们获取到的信息书写代码了!

** **

3.开始采集

以下为源代码,轻轻松松获取网页的数据(我当时写的关键词是手机,大家把相应关键词改过来即可)

** **

4.采集的结果

**
**

** **

5.扩展知识

我们获取的只是单个关键词的结果,假如我想要很多关键词的结果怎么办呢?我们是不是只需要把query参数对应的词变成一个变量即可呢?因此我们可以利用input模块完成自动化:最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你可以联系维:762459510 ,那个真的很不错,很多人进步都很快,需要你不怕吃苦哦!大家可以去添加上看一下~

好了,这节课内容我们就先到这吧!接下来还会通过几个案例来巩固我们的requests模块

Python爬虫之reuqests实现简单网页采集--网页采集教程相关推荐

  1. Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  2. Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  3. Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  4. python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程

    python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程 前言 一丶整体思路 二丶遇到的问题 三丶分析URL 四丶解析页面 五丶写入文件 六丶完整代码 七丶最后 前言 大家好我是墨绿 头顶总 ...

  5. python爬虫代码1000行-简单用14行代码写一个Python代理IP的爬虫

    相信用别的语言只用14行是写不出来这样的效果的!而我们的Python 只需要区区的14行代码就能写出来哦! 这就是Python为什么是全球现在比较流行的语言之一了!因为简单 容易学! 比较上手! 现在 ...

  6. Python爬虫入门第一课:如何解析网页

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 以下文章来源于肥宅与画家 ,作者AntzUhl 我们编写网络爬虫最主要的目 ...

  7. Python爬虫实战项目:简单的百度新闻爬虫

    这个实战例子是构建一个大规模的异步新闻爬虫,但要分几步走,从简单到复杂,循序渐进的来构建这个Python爬虫 本教程所有代码以Python 3.6实现,不兼顾Python 2,强烈建议大家使用Pyth ...

  8. python爬虫今日头条_Python简单的quot;今日头条quot;爬虫

    Hello, 感觉好久没有写简书了,最近一直在忙支付和新需求,忙里偷闲学了一下 python 的简单使用,然后尝试的爬了一下"今日头条",效果还不错,下面简单介绍下我的第一个爬虫. ...

  9. python爬虫实例-python3.7简单的爬虫实例详解

    python3.7简单的爬虫,具体代码如下所示: #https://www.runoob.com/w3cnote/python-spider-intro.html #Python 爬虫介绍 impor ...

最新文章

  1. CPU将特权级别分为4个级别:RING0,RING1,RING2,RING3是什么呢?
  2. java.io设计模式_Java IO文件过滤器对命令设计模式的使用
  3. 香辣弹簧:不同的自动接线方式
  4. python md5函数_python实现md5加密
  5. [No000048]程序员的成长过程中,有哪些阶段?
  6. linux手机摩托,[图]摩托罗弹奏Linux顺手机的前生
  7. android高德地图 画质,高德导航地图端口和分辨率修改
  8. shell脚本自动更新ca证书
  9. MATLAB统计分析—描述性统计
  10. 利用Python开发王者荣耀,一路直奔上王者
  11. 如何判断一个单链表是否有环?
  12. Gvim中实现特定行文本的替换
  13. win7笔记本无线网服务器,win7笔记本连接不上无线网络
  14. Python 编码错误UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xac in position 131: illegal multibyte
  15. 微信小程序页面上面的名字怎么改_微信小程序取名|如何修改名字|取名规则!...
  16. linux蓝牙串口 rfcomm,蓝牙RFCOMM通信
  17. 92.最后的综合案例
  18. 用代码制作小游戏:简单制作给孩子幸福童年
  19. 山雨欲来风满楼——云计算趋势一览
  20. 软件生命周期模型——瀑布模型

热门文章

  1. 中国各地高考难度地图:上大学最难的省份是哪里!?
  2. 导师神总结:读博失败的10个作死大法
  3. 优秀!这些高校诞生一批 “80后”总裁!Top3均来自人工智的黄埔军校!
  4. 美国科学院2020新晋院士名单发布!中科院曹晓风及6位华人学者入选,去年还有高福和颜宁...
  5. 字节跳动的面试题.pdf
  6. 写代码做副业月入10K+的方法都藏在这几个公众号
  7. 漫画:有趣的“帽子问题”
  8. golang源码分析-启动过程概述
  9. Python源码学习:内建类型简析并简析int对象
  10. 主要元素(超过一半元素)