写在前面:
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出。欢迎各位前来交流。(部分材料来源网络,若有侵权,立即删除)

爬虫学习round02

思维导图

requests模块

  • requests.request() 构造请求
  • requests.get() 获取HTML的主要方法
  • requests.head() 获取HTML头部信息的主要方法
  • requests.put() 向HTML提交PUT请求的方法
  • requests.patch()向HTML提交局部修改申请
  • requests.delete()向HTML提交删除请求

requests.get()

res = requests.get(url,params,**kwargs)
属性 说明
status_code HTTP请求返回状态,若为200则表示请求成功
text HTTP响应内容的字符串形式,即返回的页面内容
encoding 从HTTPheader中猜测的相应内容编码方式
apparent_encoding 从内容中分析出的响应内容编码方式(备用编码方式)
content HTTP响应内容的二进制形式

正则使用

re.match函数

  • 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功,则返回None。
re.match(pattern,string,flag=0)
import re
print(re.match('www','www.baidu.com').span())#在起始位置匹配
print(re.match('com','www.baidu.com'))#不在起始位置匹配
  • pattern 匹配的正则表达式
  • string 要匹配的字符串
  • flags 标志位,用于控制正则表达式的匹配方式,如是否区分大小写、是否多行匹配等

re.search函数

  • 用于扫描整个字符串并返回第一个成功的匹配。
re.search(pattern,string,flag=0)

二者区别

  • re.match只匹配字符串的开始,如果字符串开始不匹配正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。

re.compile函数

re.compile(pattern[,flags])

findall函数

  • 用于在字符串列表中找到正则表达式的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
findall(string[,pos[,endpos]])

爬虫学习round02相关推荐

  1. 以下用于数据存储领域的python第三方库是-Python3爬虫学习之MySQL数据库存储爬取的信息详解...

    本文实例讲述了Python3爬虫学习之MySQL数据库存储爬取的信息.分享给大家供大家参考,具体如下: 数据库存储爬取的信息(MySQL) 爬取到的数据为了更好地进行分析利用,而之前将爬取得数据存放在 ...

  2. python爬虫正则表达式实例-python爬虫学习三:python正则表达式

    python爬虫学习三:python正则表达式 1.正则表达式基础 a.正则表达式的大致匹配过程: 1.依次拿出表达式和文本中的字符比较 2.如果每一个字符都能匹配,则匹配成功:一旦有匹配不成功的字符 ...

  3. 爬虫学习笔记(十)—— Scrapy框架(五):下载中间件、用户/IP代理池、settings文件

    一.下载中间件 下载中间件是一个用来hooks进Scrapy的request/response处理过程的框架. 它是一个轻量级的底层系统,用来全局修改scrapy的request和response. ...

  4. 爬虫学习笔记(七)——Scrapy框架(二):Scrapy shell、选择器

    一.Scrapy shell scrapy shell的作用是用于调试,在项目目录下输入scrapy shell start_urls (start_urls:目标url)得到下列信息: scrapy ...

  5. Python2爬虫学习系列教程

    http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...

  6. python爬虫自学路线_python 爬虫学习路线:从入门到进阶

    大家好,我是凉拌 今天给大家详解一下我的爬虫学习路线. 对于小白来说,爬虫可能是一件非常复杂.技术门槛很高的事情.比如有的人则认为先要掌握网页的知识,遂开始 HTML\CSS,结果入了前端的坑,浪费了 ...

  7. Python爬虫学习系列教程

    大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫 ...

  8. python网络爬虫权威指南 豆瓣_豆瓣Python大牛写的爬虫学习路线图,分享给大家!...

    豆瓣Python大牛写的爬虫学习路线图,分享给大家! 今天给大家带来我的Python爬虫路线图,仅供大家参考! 第一步,学会自己安装python.库和你的编辑器并设置好它 我们学习python的最终目 ...

  9. 新手python爬虫代码_新手小白必看 Python爬虫学习路线全面指导

    爬虫是大家公认的入门Python最好方式,没有之一.虽然Python有很多应用的方向,但爬虫对于新手小白而言更友好,原理也更简单,几行代码就能实现基本的爬虫,零基础也能快速入门,让新手小白体会更大的成 ...

最新文章

  1. 动手实验2-ODCH(11)
  2. 独家|一文解读合成数据在机器学习技术下的表现
  3. python第三方模块—psutil模块
  4. 解决Redhat Linux AS使用yum时出现This system is not registered with RHN的问题(改用CentOS的yum)...
  5. 博科:毫不迟疑地入软件网络时代
  6. Educational Codeforces Round 65 (Rated for Div. 2) D. Bicolored RBS
  7. 【科普】Web(瓦片)地图的工作原理
  8. Java基础篇3——流程控制
  9. Jenkins ssh 发布jar 时区不对
  10. 遍历集合常见的两种方式
  11. C#:系统学习笔记(一)MVC基础篇
  12. html+css制作小米商城官网初尝试
  13. 怎样将html文件生成桌面动态壁纸,利用自定义桌面和HTML打造动态桌面图标
  14. bcc语料库下载_语料库汇总
  15. [20150818]模拟wan网络延迟.txt
  16. this.$refs使用方法
  17. Maxtang大唐英特尔12代J6412无风扇双网口迷你主机真实评测
  18. (3分钟速通)Visual Odometry的特征点法和直接法
  19. SpringCould实战开篇
  20. electron-vue获取电脑设备标识信息

热门文章

  1. Python考试基础知识
  2. hdu1754 I hate it线段树模板 区间最值查询
  3. stm32驱动LTC6912程控放大器程序,PGA可编程增益放大器,可调增益运放电路
  4. 机器学习之常用优化方法(GD、牛顿、拟牛顿、拉格朗日乘子)
  5. 03 Python爬虫之Requests网络爬取实战
  6. NFV-Bench A Dependability Benchmark for Network Function Virtualization Systems
  7. 线程池原理及python实现
  8. MVC5中Model层开发数据注解
  9. python3--匿名函数
  10. AJAX POST跨域 解决方案 - CORS(转载)