文本预处理之判断是否包含非法字符或非英文字符(Java)
非英文字符删除
下面的代码用来去除非英文字符。例如将汉字、数字等字符全部去除
public static String isEnglishWord(String[] authors) {ArrayList<String> words = new ArrayList<>();FileUtils.getStringArrList(authors,words);for(int i = 0; i < words.size(); i++){if(isContainNoEnglish(words.get(i))){words.remove(i);i--;}}String text = FileUtils.getRecombine(words);return text;}public static boolean isContainNoEnglish(String str) {Pattern p = Pattern.compile("[^a-zA-Z\\s]");Matcher m = p.matcher(str);if (m.find()) {return true;}return false;}
非法字符删除
即只保留文本中的汉字、数字以及英文字符,其他字符删除。
为实现这个目标,只需将isContainNoEnglish()方法中的正则表达式改为:
[^A-Za-z0-9 \\u4e00-\\u9fa5]
文本预处理之判断是否包含非法字符或非英文字符(Java)相关推荐
- 文本框无法接受非英文字符的技术分析
关于文本框无法输入非英文字符的现象,在日常国际化测试工作中出现的概率极大.为了限制用户的输入必须符合软件定义的规范,开发人员一般都会对输入框中的value通过正则表达式或事件进行校验.如下图所示,当c ...
- matlab报错问题处理,函数或变量无法识别,不受支持的符号、不可见的字符或非 ASCII 字符的粘贴———卸载之前
matlab报错问题处理,, 文本字符无效.请检查不受支持的符号.不可见的字符或非 ASCII 字符的粘贴. matlab里面缺少自带函数处理办法: 1.比较好的方法是重装. 2.也可以缺哪个文件,就 ...
- 每天一练——输入一行字符串,按如下规则加密:如果是英文字母则大写变小写、小写变大写,对非英文字符则保持不变。试写加密程序。
目录 1.思路 2.代码 3.代码实现 1.思路 题目说道如果是英文字母: 大写要变小写 小写要变大写 对非英文字符则保持不变 这里就用到了ASCII码表 大写字母的ASCII码表是:65'A'--9 ...
- 怎样快速识别 英文地址中包含非英文字符_[论文笔记]端到端的场景文本识别算法--CRNN 论文笔记...
本文大约 4000 字,阅读大约需要 10 分钟 论文地址:https://arxiv.org/abs/1507.05717 开源代码:https://github.com/bgshih/crnn 1 ...
- SQL 中 unicode字符和非unicode字符的区别
unicode字符就是一些标准的字符,例如英文.数字,不支持汉字. 非unicode是包含汉字和一些特殊字符 nvarchar支持汉字,但是每一个字符占用两个字节 比如有这样的字段:[Name] [n ...
- VS2015支持UTF-8 with BOM编码格式处理中文、西班牙文、法文等非英文字符
Detail: 在使用VS2015编译ImageMagicK库时,由于其中源码文件带有非英文字符串,导致VS编译出错. LANGUAGE(bn /* Bengali */,GLASS,"আম ...
- 中文字符长度与英文字符长度的计算
工作中遇到这样的需求:要求input输入的最大字符是8个,输入英文时可以最多输入8个英文字符,但是输入中文时,会出现在输入了四个汉字之后,就不能在输入了,原因在于一个汉字占了两个字节. 如何解决这个问 ...
- qt 判断路径非英文符号与非英文字符_Qt中,软件多语言国际化翻译的方法与步骤...
总第23篇 在Qt的项目开发过程中,有时软件要翻译成多语言版本,这就涉及到国际化方面的操作.虽然Qt对这方面集成了很多工具,操作起来比较方便,本文还是总结一下国际化的方法和步骤,用以备忘和参考. 我们 ...
- PHP 解析xml(包含非英文字符)
如果XML格式不正确 返回错误异常 用递归方式解析XML function getXMLDom($sXMLStr) { global $LINEFEED; $sXML_UTF8 = u ...
最新文章
- 手机QQ重构移动社交市场
- 作用c语言算圆的周长,C语言入门级代码 输入圆的半径求出圆的周长及面积
- android s静态广播,重走android(3)广播 · sk600’s Studio
- 数组、字符串及字符串相关函数
- Event Bus 设计模式学习笔记
- JavaWeb笔记02-Tomcat
- 一个数据包的旅程_数据科学语言的个人旅程
- Pytorch —— BN、LN、IN、GN
- Linux——通配符
- 用StreamReader读取服务器端文本文件,或远程网页
- 欢迎大家制作搜狗输入法flash皮肤。
- android textwatcher 获取当前控件,Android中AutoCompleteTextView与TextWatcher结合小实例
- android手机常用浏览器,Android手机 三大浏览器对比评测
- (亲测)使用cmd结束进程的3种方法
- 什么叫计算机硬件特征码,如何检测电脑的硬件特征码信息(主板、CPU、硬盘)...
- 操作系统的功能、作用、分类
- 视频无法播放,视频打不开怎么办?可用这款视频修复工具快速修复
- 第二节 LwIP简介
- 开发数据可视化,有哪些数据可视化表现形式?
- 如何使用overleafLaTeX