在处理中文语料或者英文语料时,经常遇到一些非法字符,例如下面微博数据集中的:

遇到这些字符,很烦。尤其是对单词标号的时候。

下面给出了Java处理的方式:

 public static void main(String[] args) throws IOException {BufferedReader reader1 = new BufferedReader( new InputStreamReader( new FileInputStream( new File("weibo/test")),"utf-8"));String line1 = null;while ((line1 = reader1.readLine()) != null) {System.out.println(line1);System.out.println(line1.replaceAll("[^A-Za-z0-9 \\u4e00-\\u9fa5]", ""));System.out.println(cleanString(line1));}reader1.close();}

这里相当于取缔所有的非字母类或者非汉字类的字符

Java文本预处理 去除非法字符相关推荐

  1. html文本框禁止汉字,html 文本框屏蔽非法字符

    由于需要对文本框内容进行校验,将非法字符通过JS的replace函数过滤出去,但是这样过滤对于在文本框内容最后插入的非法字符没有影响,如果在文本中间插入非法字符,那么将非法字符过滤掉之后,光标就会跳到 ...

  2. java用正则表达式表示非法字符_非法字符的正则表达式

    搜索热词 public final static String SEARCHKEYREGEX = "[~!/@#$%^&*()\\-_=+\\|[{}];:\'\",< ...

  3. 文本预处理去除表情符号,只提取中英文及数字

    import re #去除表情符号[敲打] def filter_emoji2(content):     content = str(content)     content2 = re.sub(' ...

  4. NLP文本预处理去除标点符号

    from string import punctuation import re import sys reload(sys) sys.setdefaultencoding('utf-8')impor ...

  5. java 非法字符uff5b,uff,老外说uff是什么意思

    uff是什么意思? 要看上下文..UFF有多种意思.. 1.UFF是一个世界性组织,收集民众所捐赠的衣服,做完适当的清理,才拿出来贩售,价格比一般二手店稍高,但品质比较好,所得会捐给非洲国家的人民. ...

  6. linux下去除文件结尾的非法字符

    1. 查看一个文件每行结尾是否包含非法字符 cat -v 文件名 每行结尾有一个^M 2.使用命令去除非法字符,并输出到一个新文件中 cat 文件名 | tr -d '\r' > target ...

  7. android非法字符 ufeff,Android 非法字符:'/ufeff'

    [问题来源] 不知道大家有没有做过这样的事,在Android开发的过程中,通过文本直接修改代码,不打开编译器,然后提交让同时编译运行.这时Android编译就会报错,指定修改的文件开始位置,显示非法字 ...

  8. C# 特殊非法字符表示和判断

    字符串string输入特殊字符表示 string limitStr = @" \ / "" : * ? < > | "; 判断文本是否含有非法字符 ...

  9. 文本预处理之判断是否包含非法字符或非英文字符(Java)

    非英文字符删除 下面的代码用来去除非英文字符.例如将汉字.数字等字符全部去除 public static String isEnglishWord(String[] authors) {ArrayLi ...

最新文章

  1. Swift - 添加、修改、删除通讯录联系人
  2. php data 算出差几天,出差天数一般怎么算。。。
  3. xMedia来了!支付宝客户端的智能化“武器”
  4. 线程间操作无效: 从不是创建控件“button2”的线程访问它
  5. layui移动端适配_移动端适配方案
  6. 分享一个点赞超过100的漂亮ASP.NET MVC蓝色界面框架
  7. Binding(一):数据绑定
  8. 前端学习(2251)提交代码
  9. nextdate函数白盒测试问题 软件测试_软件测试基本常识
  10. smbd的安装与使用
  11. python中计算如何实现_基于python如何实现计算两组数据P值
  12. getopt与getopt_long
  13. c++ struct与class
  14. python简单代码表白-表白python代码
  15. 概率论中几个入门公式
  16. 脑膜瘤论文阅读(一)
  17. Win 10系统自动备份文件
  18. oracle 导入设置字符集,Oracle数据导入时,字符集问题解决
  19. 【复变函数与积分变换】第1章 复数——1.1 复数的定义及其四则运算
  20. JavaScript保留小数位数代码

热门文章

  1. 面试官系统精讲Java源码及大厂真题 - 17 并发 List、Map源码面试题
  2. Jeecg-Boot 一款基于SpringBoot 快速开发平台
  3. 容器编排技术 -- Kubernetes kubectl label 命令详解
  4. 容器编排技术 -- Kubernetes入门概述
  5. Docker和Kubernetes如何让DevOps更具效力
  6. sqlserver空间数据 + c# 实现查询附近的设备
  7. BUAA-OO-2019 第三单元总结
  8. 判断两个数组有相同的数据
  9. 【详细说明】nginx反向代理wss websocket
  10. 个人猜测一下《黑神话:悟空》的部分剧情