近期从事检索工作,需要相应用户的输入请求,返回结果。由于难以预料用户的输入内容,如果不加过滤处理,在检索阶段很可能抛出异常。

用户的输入可能风格迥异,最常见的可能算是夹杂各种标点符号的输入了。怎样过滤?

在csdn论坛上面看到一贴,综合了一下,得到了下面的正则表达式,也许会帮助你解决问题:

\\pP|\\pS

我们用一个例子演示此正则表达式用法:

public static void main(String[] args){

String string="测试<>《》!*(^)$%~!@#$…&%¥—+=、。,;‘’“”:·`文本";

System.out.println(string.replaceAll("\\pP|\\pS", ""));

}

输出结果为:

测试文本

参考的主要内容如下:

Unicode 编码并不只是为某个字符简单定义了一个编码,而且还将其进行了归类。

/pP 其中的小写 p 是 property 的意思,表示 Unicode 属性,用于 Unicode 正表达式的前缀。

大写 P 表示 Unicode 字符集七个字符属性之一:标点字符。

其他六个是

L:字母;

M:标记符号(一般不会单独出现);

Z:分隔符(比如空格、换行等);

S:符号(比如数学符号、货币符号等);

N:数字(比如阿拉伯数字、罗马数字等);

C:其他字符

上面这七个是属性,七个属性下还有若干个子属性,用于更进一步地进行细分。

Java 中用于 Unicode 的正则表达式数据都是由 Unicode 组织提供的。

Unicode 正则表达式标准(可以找到所有的子属性)

http://www.unicode.org/reports/tr18/

各 Unicode 字符属性的定义,可以用一看看某个字符具有什么属性。

http://www.unicode.org/Public/UNIDATA/UnicodeData.txt

这个文本文档一行是一个字符,第一列是 Unicode 编码,第二列是字符名,第三列是 Unicode 属性,

以及其他一些字符信息。

mysql+过滤纯标点符号,用正则表达式去除标点符号相关推荐

  1. mysql 过滤纯数字_mysql中怎么样过滤字符串中的数字

    今天,有网友邮件问我,怎么样过滤掉字符串中的数字,比如: mysql> select * from TEST; +---------+------------------------+ | Co ...

  2. python正则表达式匹配中文标点符号_正则表达式-匹配标点符号

    string testStr = "你好,测试."; Regex reg= new Regex(@"\p{P}"); testStr= reg.Replace( ...

  3. php去除所有标点符号的方法,php如何去除标点符号

    php去除标点符号的方法:首先创建一个PHP示例文件:然后通过正则表达式"preg_replace($pattern, ' ', $str);"删除字符串中的中英文标点符号即可. ...

  4. python文本筛选html_Python使用正则表达式去除(过滤)HTML标签提取文字功能

    正则表达式是一个特殊的字符序列,可以帮助您使用模式中保留的专门语法来匹配或查找其他字符串或字符串集. 正则表达式在UNIX世界中被广泛使用. 下面给大家介绍下Python使用正则表达式去除(过滤)HT ...

  5. python3 正则 去除 html标签、提取正文内容_Python通过正则表达式去除(过滤)HTML标签,提取文字...

    # -*- coding: utf-8-*- import re ##过滤HTML中的标签 #将HTML中标签等信息去掉 #@param htmlstr HTML字符串. def filter_tag ...

  6. 去除标点符号乱码quot---转义字符

    去除标点符号乱码&quot-转义字符 主要使用的是common-lang包下的StringEscapeUtils方法,但因StringEscapeUtils方法在common-lang 包下已 ...

  7. NLP-中文文本去除标点符号

    简单记录一下中文文本如何去除标点和特殊符号的问题... 目录 目录 一.回顾一下英文如何去除符号等预处理问题 ①去除特殊符号 ②去除数字 ③词形归一 ④停止词 ⑤将上述内容综合 二.中文文本去除标点符 ...

  8. python中文字符串多余空格_python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解...

    python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解 在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入 ...

  9. mysql正则比较大小_MySQL正则表达式匹配

    概述 正则表达式和MySQL有何关系?正则表达式的作用是匹配文本,将一个模式(正则表达式)与一个文本串进行比较.MySQL用where子句对正则表达式提供了初步的支持,允许你指定正则表达式,过滤sel ...

最新文章

  1. 打印容器_3D打印:增材点阵结构在压力容器优化设计中的应用
  2. API的过去,现在与未来
  3. 风控模型中的五大类聚类算法介绍
  4. 360安全卫士清理C盘
  5. python如何截长图_Python网页截图/屏幕截图/截长图如何实现?
  6. 20个PCB快捷键操作,提升绘图效率
  7. 身份证校验规则Js代码
  8. 张正友标定法matlab,张正友标定法(相机标定)
  9. Python小程序(1)--汇率换算器
  10. eclipse为什么文件夹路径真实存在但运行显示路径不存在
  11. 网络威胁情报git【全面】
  12. 文章排版——上机实验,C语言
  13. 清华镜像源安装Pytorch
  14. 基于java的物流信息管理系统(计算机毕业设计)
  15. #swust oj971 和972统计利用先序遍历创建的二叉树的深度和宽度
  16. Android UI绘制流程分析(三)measure
  17. 陷维权风波,冲高端的小米手机过于激进?
  18. PC端-拖动表格组件
  19. 春暖花开,想念面朝大海
  20. 一个懒惰的人的自省书——请朋友们以我为戒,有更好的未来

热门文章

  1. 二维数组(图像)转变成3通道图
  2. 美国往事:量化投资,永远不等于高频交易
  3. Baxter学习笔记1-机器人软硬件配置篇
  4. NLP:文本情感分析快速入门
  5. hp电脑java图片抖动_HPPC:高效的Java集合库
  6. 【自然语言处理NLP】中文语料整理【情感分析、文本分类、摘要、实体分析】
  7. 数字图像学笔记——14. 图像退化与复原(线性退化)
  8. JAXB 中的@XmlElementWrapper注解生成问题
  9. 有如图所示的七巧板,试设计算法,使用至多4种不同颜色对七巧板进行涂色(每块七巧板一种颜色),要求相邻区域的颜色互补相同,打印输出所有可能的涂色方案。
  10. 解决vue 不支持ie浏览器 qq浏览器的解决办法