1. 正则表达式

正则表达式,又称规则表达式**。**(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。——百度百科

下面是正则表达式常见的使用场景:

  1. 检查字符串的合法性

    • 验证用户名 (a-z,0-9,不能全是数字,不能全是字母)
    • 验证邮箱格式 (xxx@qq.com)
    • 验证电话号码 (11位数字)
    • 验证身份证 (18位 )
    • 验证QQ号码格式(5-12纯数字,第一位不能为0);
  2. 提取字符串中信息
    • 提取一条短信中数字;
    • 提取文件名的后缀;
    • 采集器(网络爬虫)
  3. 替换字符串
    • 替换字符串中的非法字符;
    • 对电话号码进行屏蔽;(1852****0102)
    • 替换占位符 “hello {{name}} ” hello 王老二 (模板框架)
  4. 分割字符串
    • 将一个字符串按照指定的规则进行分割;

在爬虫中,使用正则表达式提取我们想要的数据。去掉多余的数据。

场景:找所有邮件地址

百度贴吧邮箱信息:http://tieba

python数据解析-re、xpath选择器的使用相关推荐

  1. python数据解析——xpath爬取文字和图片

    xpath解析:最常用且最便捷高效的一种解析方式,通用性. xpath解析原理: 1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中. 2.调用etree对象中的xpath方法 ...

  2. python爬虫实战之旅( 第三章:数据解析(xpath法))

    上接:第三章:数据解析(bs4法) 下接:第四章:验证码识别 1.xpath解析简介 最常用且最便捷高效的一种解析方式.通用性很好 xpath解析原理 实例化一个etree的对象,且需要将被解析的页面 ...

  3. 3.3 数据解析之xpath解析

    数据解析–xpath解析 最常用最便捷高效的一种解析方式 1. 模块安装 pip install lxml from lxml import etree 2. 解析原理 实例化一个 etree 对象, ...

  4. python爬虫循环表格xpath_python爬虫数据解析之xpath

    xpath是一门在xml文档中查找信息的语言.xpath可以用来在xml文档中对元素和属性进行遍历. 在xpath中,有7中类型的节点,元素,属性,文本,命名空间,处理指令,注释及根节点. 节点 首先 ...

  5. Python数据解析的三种方式

    一,正则表达式解析 在爬虫中,下面两种方式用的多一些~ 大致用法: pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i&g ...

  6. 数据解析之xpath解析

    目录 xpath解析概念 原理 环境的安装 如何实例化一个etree对象 实战练习 xpath解析概念 最常用且最便捷高效.最通用的一种解析方式. 原理 1.实例化一个etree的对象,且将需要被解析 ...

  7. 网络爬虫之网页数据解析(XPath)

    文章目录 引入 什么是XML XML的节点关系 XPath定义 XPath表达式 最常用的路径表达式 常用路径表达式以及表达式的结果 谓语用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号 ...

  8. Selector提取数据1:XPath选择器

    1.XPath是什么? XPath即XML路径语言(XML Path Language),它是一种用来确定xml文档中某部分位置的语言.XPath本身遵循w3c标准. xml文档(html属于xml) ...

  9. Python网络解析库Xpath,妈妈再也不会担心我不会解析了

    本文同步发表于我的微信公众号,扫一扫文章底部的二维码或在微信搜索 极客导航 即可关注,每个工作日都有文章更新. 一.概况 前两篇我们把网络库Requests大概的用法学了一遍,把网站上的每页数据请求下 ...

  10. html文件xpath解析语法,数据解析之XPath语法和lxml模块

    什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. XPath开发工具 Chrome ...

最新文章

  1. Silverlight WCF RIA服务(二十三)Silverlight 客户端 4
  2. 企业如何培养出得力的下属?
  3. 复习04统计学习方法(朴素贝叶斯算法Naive Bayes)---图片版
  4. mySql 主从复制linux配置
  5. windows下部署MySQL 8.0.11
  6. OpenCV gapi模块绘制的实例(附完整代码)
  7. 创建您的第一个servlet
  8. Ajax无刷新实现省市联动,并在回发后保留省市下拉框状态
  9. NYOJ--448--寻找最大数
  10. 一步步学习SPD2010--附录B--创建新的批准流程
  11. POI操作Excel表格相关API说明
  12. 离散傅里叶变换终极推导
  13. 解决easyui html的写法初始化会短暂出现dialoge
  14. 算力网络走向智能社会,云计算初心未改(一)
  15. 记录使用mybatis-plus时遇到的错误
  16. 用友U9 BOM全阶展开 代码如下
  17. 身份证男女识别---进一步优化03
  18. JavaScript (一) js的介绍及基本语法变量
  19. vue3中添加elementui插件
  20. 腾讯邮箱 新浪邮箱 网易 免费企业邮箱 阿里云/万网域名MX解析配置

热门文章

  1. 二进制、十进制和16进制对照表以及对应的字符
  2. js获取浏览器信息及版本(兼容IE)
  3. 判断 360浏览器极速 / 兼容模式
  4. 全球免费开放的电子图书馆
  5. 王道计算机网络 电子版,2021王道.考研复习指导.数据结构.操作系统.计算机组成原理.计算机网络.计算机考研PDF电子版无水印图...
  6. 【收藏的JS库】 Javascript常用的库 (包含图片处理、动画库、语音命令库、视觉检测、机器学习等)
  7. STM8S103之串口中断接收
  8. 局域网桌面共享软件(Java版)
  9. 算法与数据结构面试题(6)-腾讯面试题
  10. 使用RDPWrapper实现多用户远程登录并限制IP