java正则表达式从后往前匹配,正则表达式教程之前后查找lookaround详解
本文实例讲述了正则表达式教程之前后查找lookaround。分享给大家供大家参考,具体如下:
注:在所有例子中正则表达式匹配结果包含在源文本中的【和】之间,有的例子会使用Java来实现,如果是java本身正则表达式的用法,会在相应的地方说明。所有java例子都在JDK1.6.0_13下测试通过。
一、问题引入
在HTML页面中,匹配出一对标签之间的文本,如匹配出页面的标签,即
与之间的文本:
文本:
welcome to my page
正则表达式:.*? [Tt][Ii][Tt][Ll][Ee]>
结果:
【welcome to my page】
分析:表示不区分大小写,这个模式匹配到了title标签以及它们之间的文本,但是并不完美,因为我们只想要title标签之间的文本,而不包括标签本身。解决这个问题我们就需要用到前后查找(lookaround)。
二、向前查找
向前查找指定了一个必须匹配但不在结果中返回的模式。向前查找实际上就是一个子表达式,它以?=开头,需要匹配的文本跟在=的后面。
看一个匹配出一个URL地址中协议部分的例子:
文本:http://blog.csdn.net/mhmyqn
正则表达式:.+(?=:)
结果:【http】://blog.csdn.net/mhmyqn
分析:URL地址中协议部分是在:之前的部分,模式.+匹配任意文本,子表达式(?=:)匹配:,但是被匹配到的:并没有出现在结果中。我们使用?=向正则表达式引擎表明,只要找到:就行了,但不包括在最终的返回结果里。这里如果不使用向前匹配(?=:),而是直接使用(:),那么匹配结果就会是http:了,它包括了:,并不是我们想要的。
注意:前后查找中的前、后是指模式与被查找文本的相对位置而言的,左为前,右为后。即向前查找为:xxx(?=xxx),而向后查找为(?<=xxx)xxx,向后查找在接下来会介绍到。
三、向后查找
向后查找操作符是?<=。但是并不是所有的正则表达式实现都支持向后查找,JavaScript就不支持,java语言支持向后查找。
比如要查找文本当中的价格(以$开头,后面跟数字),结果不包含货币符号:
文本:category1:$136.25,category2:$28,category3:$88.60
正则表达式:(?<=\$)\d+(\.\d+)?
结果:category1:$【136.25】,category2:$【28】,category3:$【88.60】
分析:(?<=\$)模式匹配$,\d+(\.\d+)?模式匹配整数或小数。从结果可以看出,结果不没有包括货币符号,只匹配出了价格。如果不使用向后查找,情况会是什么样呢?使用模式$\d+(\.\d+)?,这样会把$包含在结果中。使用模式\d+(\.\d+)?,又会把categery1(23)中的数字也匹配出来,都不是我们想要的。
注意:向前查找模式的长度是可变的,它们可以包含.、*、+之类的元字符;而向后查找模式只能是固定长度,不能包含.、*、+之类的元字符。
四、把向前查找和向后查找结合起来
把向前查找和向后查找结合起来使用,即可解决前面HTML标签之间的文本的问题:
文本:
welcome to my page
正则表达式:(?<=).*?(?= [Tt][Ii][Tt][Ll][Ee]>)
结果:
【welcome to my page】
分析:从结果可以看出,问题完美的解决了。(?<=)是一个向后操作,它匹配
但不消费它,(?=[Tt][Ii][Tt][Ll][Ee]>)是一个向前操作,它匹配但不消费它。最终返回的匹配结果只包含了标签之间的文本了。
五、对前后查找取非
前面说到的向前查找和向后查找通常都是用来匹配文本,其目的是为了确定将被返回的匹配结果的文本的位置(通过指定匹配结果的前后必须是哪些文本)。这种用法叫正向前查找和正向后查找。还有一种负向前查找和负向后查找,是查找那些不与给定模式相匹配的文本。
前后查找的操作符:
(?=)
正向前查找
(?!)
负向前查找
(?<=)
正向后查找
(?
负向后查找
比如一段文本中即有价格(以$开头,后面跟数字)和数量,我们要找出价格和数量,先来看查找价格:
文本:I paid $30 for 10 apples, 15 oranges, and 10 pears. I saved $5 onthis order.
正则表达式:(?<=\$)\d+
结果:I paid 【$30】 for 10 apples, 15 oranges, and 10 pears. I saved 【$5】 on thisorder.
查找数量:
文本:I paid $30 for 10 apples, 15 oranges, and 10 pears. I saved $5 onthis order.
正则表达式:\b(?
结果:I paid $30 for 【10】 apples, 【15】 oranges, and 【10】pears. I saved $5 on this order.
分析:(?
六、小结
有了前后查找,就可以对最终的匹配结果包含哪些内容做出精确的控制。前后查找操作使我们可以利用子表达式来指定文本匹配操作发生的位置,并收到只匹配不消费的效果。
PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:
JavaScript正则表达式在线测试工具:http://tools.jb51.net/regex/javascript
正则表达式在线生成工具:http://tools.jb51.net/regex/create_reg
希望本文所述对大家正则表达式学习有所帮助。
java正则表达式从后往前匹配,正则表达式教程之前后查找lookaround详解相关推荐
- java正则表达式从后往前匹配_Java 正则表达式 向前、向后匹配
//向后匹配 String a = "I paid $90 for 10 oranges, 12 pears and 8 apples. I saved $5 on "; Patt ...
- Java实现话术词槽匹配_桔子互动|百度UNIT操作详解(上篇)
原标题:桔子互动|百度UNIT操作详解(上篇) 作者:令狐曦 文章简介: 本篇文章对UNIT的操作和注意事项进行详细说明,内容包括: 建立场景 配置对话单元/问答单元/高级设置 [配置对话单元] [配 ...
- java截取倒数后六位的字符串_JAVA中截取字符串substring用法详解
substring public String substring(int beginIndex) 返回一个新的字符串,它是此字符串的一个子字符串.该子字符串始于指定索引处的字符,一直到此字符串末尾. ...
- java 数组的扩容,缩容,插入元素,查找元素 详解(通俗易懂)
目录 前言 : 一个必须明白的事实(重要!) : 数组的扩容 : 需求 : 思路 : 代码演示 : 数组的缩容 : 需求 : 思路 : 代码演示 : 数组元素的插入 : 需求 : 思路 : 代码演示 ...
- python中文字符串多余空格_python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解...
python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解 在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入 ...
- python正则去掉重复单词_python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解 | 学步园...
在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下: input:我今天 赚了 10 个亿,老百姓very happ ...
- java中多线程之CAS(compareAndSet),Unsafe类大白话详解.
java中多线程之CAS(compareAndSet),Unsafe类大白话详解 什么是CAS CAS原理 Unsafe类: 什么是CAS 比较并交换 在学习CAS之前,我们先了解一下JMM. ...
- [系统安全] 四十五.APT系列(10)Metasploit后渗透技术信息收集、权限提权和功能模块详解
您可能之前看到过我写的类似文章,为什么还要重复撰写呢?只是想更好地帮助初学者了解病毒逆向分析和系统安全,更加成体系且不破坏之前的系列.因此,我重新开设了这个专栏,准备系统整理和深入学习系统安全.逆向分 ...
- 从Java程序员进阶到架构师,6大核心技能要领详解
" java架构师技能将分为如下6大环节:数据结构和算法,Java高级特性,Java web核心,数据库,Java框架与必备工具,系统架构设计. 希望能真正帮助到从程序员进阶到架构师之路的朋 ...
最新文章
- 程序员赴美经验谈:本科应届 Kevin - 弗罗里达州 Oracle
- iOS之深入解析自动释放池autoreleasepool的底层原理
- Java并发学习之一——线程的创建
- java金额类型_Java中存储金额用什么数据类型?
- java 栈和队列实现迷宫代码_LeetCode每日一题--剑指 Offer 09. 用两个栈实现队列(Java)
- uni-app微信小程序uni.getLocation获取位置;authorize scope.userLocation需要在app.json中声明permission;小程序用户拒绝授权后重新授权
- AviSynth——多种字幕效果伪实现方法
- SQL必知必会-事物处理
- SQL Server Denali:SSDT新功能解读
- java ios 字符串_Java 与 iOS使用RSA 加密签名
- 常用数据结构有哪些(转)
- Hbase具体操作(图文并茂且超超全~~~)
- zabbix 3.0 监控mysql_Zabbix-3.0.3 使用自带模板监控 MySQL
- docker login Error response from daemon: Get http://ip:port/v2/: net/http: request canceled
- 热门开源Web开发框架推荐
- oracle 2703,Oracle11gR2光钎链路切换crs服务发生crash
- 机器人跳钢管舞,岂止是性感
- 产品隐私政策与使用条款
- OSI七层模型功能及相关设备
- 苹果8屏幕测试软件,iPhone8人脸识别软件