edge新版 能够正则式_Python爬虫七 数据提取之正则
数据提取之正则,主要用到的re模块。
一、正则表达式
用事先定义好的一些特定字符、及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达对字符串的一种过滤逻辑。
二、正则表达式的常见语法
正则的语法很多,不能够全部展示,对于其他的语法,可以临时查阅资料。
练习:
import retmp_string = '\n\t\t\n\t\t\n 'ret = re.findall("<.>",tmp_string)#返回一个列表print(ret)
输出:
['"X-UA-Compatible" content="IE=edge,chrome=1">', '"content-type" content="text/html;charset=utf-8">', '"always" name="referrer">', '"theme-color" content="#2932e1">']
三、re模块的常见方法
pattern.match(从头找一个)
pattern.search(找一个)
pattern.findall(找所有)
返回一个列表,没有就是空列表
re.findall("\d","chuan1zhi2") >> ["1","2"]
pattern.sub(替换)
re.sub("\d","","chuan1zhi2") >> ["chuan_zhi"]
re.compile(编译)
返回一个模型P,具有和re一样的方法,但是传递的参数不同
匹配模式需要传到compile中
import rep = re.compile("\d")ret = p.findall("chuan1zhi2")print(ret)
四、python中原始字符串r的用法
原始字符串的长度
In [19]: len("\n") Out[19]: 1
In [20]: len(r"\n") Out[20]: 2
In [21]: r"\n"[0] Out[21]: '\\'
正则中原始字符串的使用
In [13]: r"a\nb" == "a\\nb" Out[13]: True
In [14]: re.findall("a\nb","a\nb") Out[14]: ['a\nb']
In [15]: re.findall(r"a\nb","a\nb") Out[15]: ['a\nb']
In [16]: re.findall("a\\nb","a\nb") Out[16]: ['a\nb']
In [17]: re.findall("a\\nb","a\\nb") Out[17]: []
In [18]: re.findall(r"a\\nb","a\\nb") Out[18]: ['a\\nb']
上面的现象说明:
正则中使用原始字符串r能够忽略转义符号带来的影响,加上原始字符串r之后,待匹配的字符串中有多少个\,正则中就添加多少个\即可
edge新版 能够正则式_Python爬虫七 数据提取之正则相关推荐
- 爬虫常用数据提取方式:正则、xpath、beautifulsoup
文章目录 1.正则re 2.xpath 2.1 定位 2.1.1 xpath中选取节点的路径表达式 2.1.2 xpath谓语,即[ ]中的内容 2.1.3 选取未知节点 2.1.4 选择多个路径 2 ...
- python爬虫获取标签规则_Python爬虫之数据提取-selenium定位获取标签对象并提取数据...
## selenium提取数据 知识点:了解 driver对象的常用属性和方法 掌握 driver对象定位标签元素获取标签对象的方法 掌握 标签对象提取文本和属性值的方法 1. driver对象的常 ...
- 爬虫之数据提取响应内容的分类
爬虫之数据提取响应内容的分类 在发送请求获取响应之后,可能存在多种不同类型的响应内容:而且很多时候,我们只需要响应内容中的一部分数据 结构化的响应内容 json字符串 [高频出现] 可以使用re. ...
- python爬虫数据可视化_python 爬虫与数据可视化--python基础知识
摘要:偶然机会接触到python语音,感觉语法简单.功能强大,刚好朋友分享了一个网课<python 爬虫与数据可视化>,于是在工作与闲暇时间学习起来,并做如下课程笔记整理,整体大概分为4个 ...
- python爬虫实现股票数据存储_Python 爬虫 | 股票数据的获取
最近股市有了一股牛市的味道,我也来蹭波热度,这节我们将爬取股票数据,股票数据在网上很容易找到,这里以某方财富网为例 目标: 爬取股票数据并存储进数据库中(这里以MongoDB为例) 目标网站(base ...
- Python爬虫的数据提取,一篇博客就搞定啦!
数据提取 目录 数据提取 XPath语法和lxml模块 XPath 什么是XPath XPath开发工具 XPath语法 选取节点: 谓语: 通配符 选取多个路径: 运算符: 总结 使用方式 需要注意 ...
- java爬虫工具xpath提取_爬虫 xpath (数据提取)
xpath 是数据提取的一种常用的方法 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. 在 XPath 中,有七种类型的节点:元素.属性 ...
- python爬虫数据可视化软件_python爬虫及数据可视化分析
1.前言 本篇文章主要介绍python爬虫及对爬取的数据进行可视化分析,本次介绍所用的网站是(https://www.duanwenxue.com/jingdian/zheli/) 2.数据爬取 2. ...
- beautifulsoup解析动态页面div未展开_Python爬虫 | 0xb 数据解析:PyQuery库
(给抠腚男孩加星标,提升Python.Android技能) 作者:CoderPig 本节带来数据解析部分最后一个解析库PyQuery,它的API和前端著名框架jQuery相似,名字由此而来.如果你有前 ...
最新文章
- zblog php伪静态,ZBLOG PHP版本Apache和Nginx伪静态规则以及设置方法
- Window编译Opencv CUDA
- solr学习之(七)_学习solr的理由(solr的特点和应用领域)
- 计算机网络:子网划分、子网掩码、CIDR 、路由聚合相关计算详解
- Windows7与苹果雪豹的绝版PK
- android obd编程,Android蓝牙连接汽车OBD设备
- WPF引用外部类库中的资源文件提示不能找到的解决方法
- python制作印刷体数据集:数字符号数据集(字符串转图片)
- shell监控磁盘使用情况
- 遗补:“预防‘磁碟机’病毒”
- ALFA机器视觉深度学习外观缺陷检测系统软件机器视觉
- 计算两个数据的百分比
- Nginx(二)配置虚拟主机
- 18届大专实习生2020总结
- Android自动手绘,圆你儿时画家梦!
- Qt信息隐藏(Q_D/Q_Q)介绍
- 参加Kaggle比赛的流程
- Android 高德地图选点,定位;实现地图选点上车功能;
- iframe标签使用及优劣
- 大话西游维护完怎么刷服务器,大话西游2免费版 12月17日维护公告 街坊三妖刷新调整...
热门文章
- 访问学术网站的便捷方式
- 逐飞关于第15届智能车竞赛相关工作
- 声音信标规格说明 2020-5-25
- java中使用bigdec,Java中的BigDecimal的使用
- python pandas for循环_高逼格使用Pandas加速代码,向for循环说拜拜!
- command对象提供的3个execute方法是_前阿里P9的Java面试重点3:多线程
- linux脚本重定向到输入,linux shell输入输出重定向
- sort降序shell_希爾排序(Shell Sort)
- java response返回xml_Spring 返回Xml格式
- c语言中注释部分执行,深入C语言内存区域分配(进程的各个段)详解