文章出处:http://blog.csdn.net/telnetor/article/details/6041323

近期从事检索工作,需要相应用户的输入请求,返回结果。由于难以预料用户的输入内容,如果不加过滤处理,在检索阶段很可能抛出异常。

用户的输入可能风格迥异,最常见的可能算是夹杂各种标点符号的输入了。怎样过滤?

在csdn论坛上面看到一贴,综合了一下,得到了下面的正则表达式,也许会帮助你解决问题:

\\pP|\\pS

我们用一个例子演示此正则表达式用法:

public static void main(String[] args){
String string="测试<>《》!*(^)$%~!@#$…&%¥—+=、。,;‘’“”:·`文本";
System.out.println(string.replaceAll("\\pP|\\pS", ""));
}

输出结果为:
测试文本

参考的主要内容如下:

Unicode 编码并不只是为某个字符简单定义了一个编码,而且还将其进行了归类。

/pP 其中的小写 p 是 property 的意思,表示 Unicode 属性,用于 Unicode 正表达式的前缀。

大写 P 表示 Unicode 字符集七个字符属性之一:标点字符。

其他六个是

L:字母;
M:标记符号(一般不会单独出现);
Z:分隔符(比如空格、换行等);
S:符号(比如数学符号、货币符号等);
N:数字(比如阿拉伯数字、罗马数字等);
C:其他字符

上面这七个是属性,七个属性下还有若干个子属性,用于更进一步地进行细分。

Java 中用于 Unicode 的正则表达式数据都是由 Unicode 组织提供的。

Unicode 正则表达式标准(可以找到所有的子属性)
http://www.unicode.org/reports/tr18/

各 Unicode 字符属性的定义,可以用一看看某个字符具有什么属性。
http://www.unicode.org/Public/UNIDATA/UnicodeData.txt

这个文本文档一行是一个字符,第一列是 Unicode 编码,第二列是字符名,第三列是 Unicode 属性,
以及其他一些字符信息。

用正则表达式去除标点符号相关推荐

  1. mysql+过滤纯标点符号,用正则表达式去除标点符号

    近期从事检索工作,需要相应用户的输入请求,返回结果.由于难以预料用户的输入内容,如果不加过滤处理,在检索阶段很可能抛出异常. 用户的输入可能风格迥异,最常见的可能算是夹杂各种标点符号的输入了.怎样过滤 ...

  2. php去除所有标点符号的方法,php如何去除标点符号

    php去除标点符号的方法:首先创建一个PHP示例文件:然后通过正则表达式"preg_replace($pattern, ' ', $str);"删除字符串中的中英文标点符号即可. ...

  3. python使用正则表达式去除句子中的重复词

    python使用正则表达式去除句子中的重复词 #python使用正则表达式去除句子中的重复词 # Python program to remove duplicate words # using Re ...

  4. python文本筛选html_Python使用正则表达式去除(过滤)HTML标签提取文字功能

    正则表达式是一个特殊的字符序列,可以帮助您使用模式中保留的专门语法来匹配或查找其他字符串或字符串集. 正则表达式在UNIX世界中被广泛使用. 下面给大家介绍下Python使用正则表达式去除(过滤)HT ...

  5. python3 正则 去除 html标签、提取正文内容_Python通过正则表达式去除(过滤)HTML标签,提取文字...

    # -*- coding: utf-8-*- import re ##过滤HTML中的标签 #将HTML中标签等信息去掉 #@param htmlstr HTML字符串. def filter_tag ...

  6. 正则表达式去除括号的问题

    正则表达式去除括号的问题 某字符串 aaa(bbb)cccddd 需求是要判断是否包含 aaa(bbb),如果包含,那就去掉(bbb),输出aaacccddd 我们先使用正则表达式: String c ...

  7. python正则去掉重复单词_python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解 | 学步园...

    在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下: input:我今天 赚了 10 个亿,老百姓very happ ...

  8. python正则表达式匹配括号并删除_正则表达式去除中括号(符号)及里面包含的内容...

    例子:颜色:粉色[10] 尺码:S[5] 去掉[ ]及内容: preg_replace("/\[.*\]/", '', $str)1 处理后效果:颜色:粉色 尺码:S 小技巧:可把 ...

  9. 去除标点符号乱码quot---转义字符

    去除标点符号乱码&quot-转义字符 主要使用的是common-lang包下的StringEscapeUtils方法,但因StringEscapeUtils方法在common-lang 包下已 ...

  10. 使用正则表达式去除斜杆(\)

    使用正则表达式去除斜杆(\),代码如下,记得斜杆是有两个的哦 import re text = "hahah\h\h\h\h" x = re.sub(r'\\',"&qu ...

最新文章

  1. shell中的执行流控制
  2. TypeScript超越C++成第四大语言,GitHub这份年度报告有太多“意想不到”
  3. sift计算描述子代码详解_SIFT解析(三)生成特征描述子
  4. 逻辑回归模型详解(Logistic Regression)
  5. 加载tensorflow模型后只运行变量名实现预测(sess.run)
  6. LiveVideoStack线上交流分享 ( 六 ) —— VP9 Scalable Video Coding
  7. VSFTP服务--Linux学习笔记
  8. Ubuntu下绘图软件krita64位无中文问题
  9. Angularjs1培训
  10. 产品类别二级分类_医疗器械分类目录未来可能实施动态调整
  11. 万字长文带你了解ETL和数据建模~!
  12. 基于MATLAB语音信号的处理与滤波
  13. crfclust.bdb文件过大处理
  14. 基层群众工作存在的问题_联系服务群众方面存在的问题及原因
  15. 非常全面的IReport的使用
  16. 电脑系统服务器丢失怎么办,电脑本地连接不见了,小编教你怎么解决
  17. 数据结构1800试题(第2章)
  18. [Qt]使用QSS的扁平化风格的小作业—— 附源码
  19. Laragon 升级composer
  20. 用 Python 做了一个小姐姐跳舞的词云视频

热门文章

  1. 在部署服务器端的时候postgresql调试和远程连接操作需要考虑好远程连接问题。
  2. 关于StopSelf
  3. 深度学习优化算法大全系列3:NAG(Nesterov Acceleration Gradient)
  4. 栈和排序---牛客练习赛10--B题
  5. 中断按键c语言程序设计,C语言程序设计:INT0及INT1中断计数
  6. 等高线生成地形_等高线一键变地形模型
  7. imp 数据导入_墨天轮数据库周刊—第7期
  8. mysql 为什么mysql设置了密码之后,本地还可以直接访问,不需要输入密码就可以登录数据库了?
  9. mysql 触发器详情
  10. php api接口安全设计 sign