数据提取之正则,主要用到的re模块。

一、正则表达式

用事先定义好的一些特定字符、及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达对字符串的一种过滤逻辑

二、正则表达式的常见语法

正则的语法很多,不能够全部展示,对于其他的语法,可以临时查阅资料。
练习:

import retmp_string = '\n\t\t\n\t\t\n        'ret = re.findall("<.>",tmp_string)#返回一个列表print(ret)

输出:

['"X-UA-Compatible" content="IE=edge,chrome=1">', '"content-type" content="text/html;charset=utf-8">', '"always" name="referrer">', '"theme-color" content="#2932e1">']

三、re模块的常见方法

  1. pattern.match(从头找一个)

  2. pattern.search(找一个)

  3. pattern.findall(找所有)

  • 返回一个列表,没有就是空列表

re.findall("\d","chuan1zhi2") >> ["1","2"]

  1. pattern.sub(替换)

re.sub("\d","","chuan1zhi2") >> ["chuan_zhi"]

  1. re.compile(编译)

  • 返回一个模型P,具有和re一样的方法,但是传递的参数不同

  • 匹配模式需要传到compile中

import rep = re.compile("\d")ret = p.findall("chuan1zhi2")print(ret)

四、python中原始字符串r的用法

  • 原始字符串的长度

  In [19]: len("\n")  Out[19]: 1

  In [20]: len(r"\n")  Out[20]: 2

  In [21]: r"\n"[0]  Out[21]: '\\'
  • 正则中原始字符串的使用

  In [13]: r"a\nb" == "a\\nb"  Out[13]: True

  In [14]: re.findall("a\nb","a\nb")  Out[14]: ['a\nb']

  In [15]: re.findall(r"a\nb","a\nb")  Out[15]: ['a\nb']

  In [16]: re.findall("a\\nb","a\nb")  Out[16]: ['a\nb']

  In [17]: re.findall("a\\nb","a\\nb")  Out[17]: []

  In [18]: re.findall(r"a\\nb","a\\nb")  Out[18]: ['a\\nb']

上面的现象说明:
正则中使用原始字符串r能够忽略转义符号带来的影响,加上原始字符串r之后,待匹配的字符串中有多少个\,正则中就添加多少个\即可

edge新版 能够正则式_Python爬虫七 数据提取之正则相关推荐

  1. 爬虫常用数据提取方式:正则、xpath、beautifulsoup

    文章目录 1.正则re 2.xpath 2.1 定位 2.1.1 xpath中选取节点的路径表达式 2.1.2 xpath谓语,即[ ]中的内容 2.1.3 选取未知节点 2.1.4 选择多个路径 2 ...

  2. python爬虫获取标签规则_Python爬虫之数据提取-selenium定位获取标签对象并提取数据...

    ## selenium提取数据 知识点:了解 driver对象的常用属性和方法 掌握 driver对象定位标签元素获取标签对象的方法 掌握 标签对象提取文本和属性值的方法 1. driver对象的常 ...

  3. 爬虫之数据提取响应内容的分类

    爬虫之数据提取响应内容的分类 在发送请求获取响应之后,可能存在多种不同类型的响应内容:而且很多时候,我们只需要响应内容中的一部分数据 结构化的响应内容 json字符串   [高频出现] 可以使用re. ...

  4. python爬虫数据可视化_python 爬虫与数据可视化--python基础知识

    摘要:偶然机会接触到python语音,感觉语法简单.功能强大,刚好朋友分享了一个网课<python 爬虫与数据可视化>,于是在工作与闲暇时间学习起来,并做如下课程笔记整理,整体大概分为4个 ...

  5. python爬虫实现股票数据存储_Python 爬虫 | 股票数据的获取

    最近股市有了一股牛市的味道,我也来蹭波热度,这节我们将爬取股票数据,股票数据在网上很容易找到,这里以某方财富网为例 目标: 爬取股票数据并存储进数据库中(这里以MongoDB为例) 目标网站(base ...

  6. Python爬虫的数据提取,一篇博客就搞定啦!

    数据提取 目录 数据提取 XPath语法和lxml模块 XPath 什么是XPath XPath开发工具 XPath语法 选取节点: 谓语: 通配符 选取多个路径: 运算符: 总结 使用方式 需要注意 ...

  7. java爬虫工具xpath提取_爬虫 xpath (数据提取)

    xpath 是数据提取的一种常用的方法 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. 在 XPath 中,有七种类型的节点:元素.属性 ...

  8. python爬虫数据可视化软件_python爬虫及数据可视化分析

    1.前言 本篇文章主要介绍python爬虫及对爬取的数据进行可视化分析,本次介绍所用的网站是(https://www.duanwenxue.com/jingdian/zheli/) 2.数据爬取 2. ...

  9. beautifulsoup解析动态页面div未展开_Python爬虫 | 0xb 数据解析:PyQuery库

    (给抠腚男孩加星标,提升Python.Android技能) 作者:CoderPig 本节带来数据解析部分最后一个解析库PyQuery,它的API和前端著名框架jQuery相似,名字由此而来.如果你有前 ...

最新文章

  1. zblog php伪静态,ZBLOG PHP版本Apache和Nginx伪静态规则以及设置方法
  2. Window编译Opencv CUDA
  3. solr学习之(七)_学习solr的理由(solr的特点和应用领域)
  4. 计算机网络:子网划分、子网掩码、CIDR 、路由聚合相关计算详解
  5. Windows7与苹果雪豹的绝版PK
  6. android obd编程,Android蓝牙连接汽车OBD设备
  7. WPF引用外部类库中的资源文件提示不能找到的解决方法
  8. python制作印刷体数据集:数字符号数据集(字符串转图片)
  9. shell监控磁盘使用情况
  10. 遗补:“预防‘磁碟机’病毒”
  11. ALFA机器视觉深度学习外观缺陷检测系统软件机器视觉
  12. 计算两个数据的百分比
  13. Nginx(二)配置虚拟主机
  14. 18届大专实习生2020总结
  15. Android自动手绘,圆你儿时画家梦!
  16. Qt信息隐藏(Q_D/Q_Q)介绍
  17. 参加Kaggle比赛的流程
  18. Android 高德地图选点,定位;实现地图选点上车功能;
  19. iframe标签使用及优劣
  20. 大话西游维护完怎么刷服务器,大话西游2免费版 12月17日维护公告 街坊三妖刷新调整...

热门文章

  1. 访问学术网站的便捷方式
  2. 逐飞关于第15届智能车竞赛相关工作
  3. 声音信标规格说明 2020-5-25
  4. java中使用bigdec,Java中的BigDecimal的使用
  5. python pandas for循环_高逼格使用Pandas加速代码,向for循环说拜拜!
  6. command对象提供的3个execute方法是_前阿里P9的Java面试重点3:多线程
  7. linux脚本重定向到输入,linux shell输入输出重定向
  8. sort降序shell_希爾排序(Shell Sort)
  9. java response返回xml_Spring 返回Xml格式
  10. c语言中注释部分执行,深入C语言内存区域分配(进程的各个段)详解