edge新版能够正则式_Python爬虫七数据提取之正则

数据提取之正则，主要用到的re模块。

一、正则表达式

用事先定义好的一些特定字符、及这些特定字符的组合，组成一个规则字符串，这个规则字符串用来表达对字符串的一种过滤逻辑。

二、正则表达式的常见语法

正则的语法很多，不能够全部展示，对于其他的语法，可以临时查阅资料。
练习：

import retmp_string = '\n\t\t\n\t\t\n        'ret = re.findall("<.>",tmp_string)#返回一个列表print(ret)

输出：

['"X-UA-Compatible" content="IE=edge,chrome=1">', '"content-type" content="text/html;charset=utf-8">', '"always" name="referrer">', '"theme-color" content="#2932e1">']

三、re模块的常见方法

pattern.match(从头找一个)
pattern.search(找一个)
pattern.findall(找所有)

返回一个列表，没有就是空列表

re.findall("\d","chuan1zhi2") >> ["1","2"]

pattern.sub(替换)

re.sub("\d","","chuan1zhi2") >> ["chuan_zhi"]

re.compile(编译)

返回一个模型P，具有和re一样的方法，但是传递的参数不同
匹配模式需要传到compile中

import rep = re.compile("\d")ret = p.findall("chuan1zhi2")print(ret)

四、python中原始字符串r的用法

原始字符串的长度

  In [19]: len("\n")  Out[19]: 1

  In [20]: len(r"\n")  Out[20]: 2

  In [21]: r"\n"[0]  Out[21]: '\\'

正则中原始字符串的使用

  In [13]: r"a\nb" == "a\\nb"  Out[13]: True

  In [14]: re.findall("a\nb","a\nb")  Out[14]: ['a\nb']

  In [15]: re.findall(r"a\nb","a\nb")  Out[15]: ['a\nb']

  In [16]: re.findall("a\\nb","a\nb")  Out[16]: ['a\nb']

  In [17]: re.findall("a\\nb","a\\nb")  Out[17]: []

  In [18]: re.findall(r"a\\nb","a\\nb")  Out[18]: ['a\\nb']

上面的现象说明:
正则中使用原始字符串r能够忽略转义符号带来的影响，加上原始字符串r之后，待匹配的字符串中有多少个\，正则中就添加多少个\即可

edge新版能够正则式_Python爬虫七数据提取之正则相关推荐

爬虫常用数据提取方式:正则、xpath、beautifulsoup
文章目录 1.正则re 2.xpath 2.1 定位 2.1.1 xpath中选取节点的路径表达式 2.1.2 xpath谓语,即[ ]中的内容 2.1.3 选取未知节点 2.1.4 选择多个路径 2 ...
python爬虫获取标签规则_Python爬虫之数据提取-selenium定位获取标签对象并提取数据...
## selenium提取数据知识点:了解 driver对象的常用属性和方法掌握 driver对象定位标签元素获取标签对象的方法掌握标签对象提取文本和属性值的方法 1. driver对象的常 ...
爬虫之数据提取响应内容的分类
爬虫之数据提取响应内容的分类在发送请求获取响应之后,可能存在多种不同类型的响应内容:而且很多时候,我们只需要响应内容中的一部分数据结构化的响应内容 json字符串 [高频出现] 可以使用re. ...
python爬虫数据可视化_python 爬虫与数据可视化--python基础知识
摘要:偶然机会接触到python语音,感觉语法简单.功能强大,刚好朋友分享了一个网课<python 爬虫与数据可视化>,于是在工作与闲暇时间学习起来,并做如下课程笔记整理,整体大概分为4个 ...
python爬虫实现股票数据存储_Python 爬虫 | 股票数据的获取
最近股市有了一股牛市的味道,我也来蹭波热度,这节我们将爬取股票数据,股票数据在网上很容易找到,这里以某方财富网为例目标: 爬取股票数据并存储进数据库中(这里以MongoDB为例) 目标网站(base ...
Python爬虫的数据提取,一篇博客就搞定啦!
数据提取目录数据提取 XPath语法和lxml模块 XPath 什么是XPath XPath开发工具 XPath语法选取节点: 谓语: 通配符选取多个路径: 运算符: 总结使用方式需要注意 ...
java爬虫工具xpath提取_爬虫 xpath (数据提取)
xpath 是数据提取的一种常用的方法 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. 在 XPath 中,有七种类型的节点:元素.属性 ...
python爬虫数据可视化软件_python爬虫及数据可视化分析
1.前言本篇文章主要介绍python爬虫及对爬取的数据进行可视化分析,本次介绍所用的网站是(https://www.duanwenxue.com/jingdian/zheli/) 2.数据爬取 2. ...
beautifulsoup解析动态页面div未展开_Python爬虫 | 0xb 数据解析：PyQuery库
(给抠腚男孩加星标,提升Python.Android技能) 作者:CoderPig 本节带来数据解析部分最后一个解析库PyQuery,它的API和前端著名框架jQuery相似,名字由此而来.如果你有前 ...

edge新版能够正则式_Python爬虫七数据提取之正则

一、正则表达式

二、正则表达式的常见语法

三、re模块的常见方法

四、python中原始字符串r的用法

edge新版能够正则式_Python爬虫七数据提取之正则相关推荐

最新文章

热门文章

edge新版 能够正则式_Python爬虫七 数据提取之正则

一、正则表达式

二、正则表达式的常见语法

三、re模块的常见方法

四、python中原始字符串r的用法

edge新版 能够正则式_Python爬虫七 数据提取之正则相关推荐

最新文章

热门文章

edge新版能够正则式_Python爬虫七数据提取之正则

edge新版能够正则式_Python爬虫七数据提取之正则相关推荐