本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。

未经本人允许禁止转载

文章目录

  • 介绍
  • java判断是否为标点符号

介绍

在英文文本处理时,需要将噪音字符出去,其中标点符号便属于噪音字符。在我的这篇博客中,https://blog.csdn.net/qy20115549/article/details/83869689 介绍了使用stanford-corenlp实现分词、词形还原的操作。其分词结果,标点符号也成了独立的字符串,剩下的工作便是对分词后获得的字符串集合进行逐个判断(即判断是否为标点符号,是否为停用词、是否为URL字符等)。
在我的这篇博客中https://blog.csdn.net/qy20115549/article/details/80684455,也已经介绍了停用词的处理。

java判断是否为标点符号

如下,为java操作程序:


import java.util.regex.Matcher;
import java.util.regex.Pattern;public class Test1 {public static void main(String[] args) {String c1 = "¥";System.out.println("¥是否为标点符号:" + isPunctuation(c1));String c2 = "we-are";System.out.println("we-are是否为标点符号:" + isPunctuation(c2));}//判断是否为标点符号public static boolean isPunctuation(String str)  {String regEx = "[`~☆★!@#$%^&*()+=|{}':;,\\[\\]》·.<>/?~!@#¥%……()——+|{}【】‘;:”“’。,、?]";Pattern p = Pattern.compile(regEx);Matcher m = p.matcher(str);//如果长度为1且能匹配正则表达式if (str.length() == 1 && m.matches()) {return true;}else {return false;}}
}

执行该程序,在控制台的输出结果为:

Java 处理英文文本标点符号去除相关推荐

  1. 用java统计英文文本的单词个数_统计文本英文单词总个数,并列出每个单词的个数...

    package test; /* * Task :统计文本英文单词总个数,并列出每个单词的个数 * * Date:2014.02.26 * *Author:璀若星辰 * */ import java. ...

  2. python 文本处理 保留中英文和标点符号_问一下处理英文文本

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 输入一段英文文本,统计出现频率最高的前10个单词(除去of.a.the.and.be.to等无意义词语).提示:在统计单词出现频率之前,需要先进行预处理解 ...

  3. 算法:去除英文文本中重复单词

    要求: 假设有一段英文文本,其中有重复的单词,要求去除重复单词,只保留一个,例如"hello world hello python",程序输出为"hello world ...

  4. Java英汉翻译程序_java实现简单的英文文本单词翻译器功能示例

    本文实例讲述了java实现简单的英文文本单词翻译器功能.分享给大家供大家参考,具体如下: 直接上代码: package fanyi; import java.io.bufferedreader; im ...

  5. java编写翻译字典数据库_java实现简单的英文文本单词翻译器功能示例

    本文实例讲述了java实现简单的英文文本单词翻译器功能.分享给大家供大家参考,具体如下: 直接上代码: package fanyi; import java.io.BufferedReader; im ...

  6. JAVA小练习之英文文本词频统计(三)

    写在开头:本次的小练习主要会运用一些字典的排序,由于对JAVA不是很熟悉,所以有的地方会不太能够解读,搜索了部分网上的资料. 英文文本词频统计 任务目标:统计英文文本中出现频率最高的5个单词,需要处理 ...

  7. java 简单的英文文本单词翻译器

    直接上代码: package fanyi;import java.io.BufferedReader; import java.io.File; import java.io.FileInputStr ...

  8. java实现单词_java实现简单的英文文本单词翻译器功能示例

    导读热词 本文实例讲述了java实现简单的英文文本单词翻译器功能.分享给大家供大家参考,具体如下: 直接上代码: package fanyi; import java.io.BufferedReade ...

  9. 【java】统计英文文本中某些字母出现的次数

    如何统计英文文本中某些字母出现的次数 public class Java_3 {public static void main(String[] args) {String text = " ...

  10. java实现英文转摩尔斯电码传输(一)

    java实现英文转摩尔斯电码传输(一) 摩尔斯电码简介: 摩尔斯电码(Morse code)也被称作摩斯密码,是一种时通时断的信号代码,通过不同的排列顺序来表达不同的英文字母.数字和标点符号.它发明于 ...

最新文章

  1. Mobileye高级驾驶辅助系统(ADAS)
  2. 在C++工程中设置全局函数
  3. 【视频课】图像分割最新内容来了(言有三新录制6大理论部分+1个案例实践讲解)...
  4. Fragment要点复习
  5. 洛谷1090 合并果子
  6. Composite(组合)--对象结构型模式
  7. python的UnboundLocalError: local variable 'xxx' referenced before assignment
  8. 终于回应!GitHub 承认解雇犹太员工的错误并道歉,HR 负责人辞职
  9. 近乎 5.3 发布,SNS 社区系统
  10. 【GIS开发者】(GISDeveloper) 11-14期 提供下载
  11. HTTP 权威指南 阅读笔记
  12. Linux redis常用命令
  13. ad采样频率_涨知识!模拟信号采样与AD转换详解
  14. PCB中产生电磁干扰的原因及消除干扰技巧
  15. Firefox书签同步工具Xmarks
  16. 知识图到文本的生成(十一)
  17. 在线教育未来的发展前景如何?
  18. Word2003快速操作技巧及常用快捷键使用
  19. Windows和Linux下排查C++软件异常的常用调试器与内存检测工具详细介绍
  20. 怎么把avi转换成mp4?

热门文章

  1. C语言>>输入两个字符串,比较这两个字符串是否相同并输出比较结果。要求不用任何字符串处理函数。
  2. openwrt-mt7628 wds配置
  3. cidaemon.exe进程cpu使用率100%
  4. git:info: detecting host provider for ‘https://gitee.com/‘...
  5. 最小二乘法的对偶形式(CVX)
  6. 揭秘腾讯代码管理核心—工蜂Git系统架构
  7. mysql中标识列是什么意思_数据库标识列是什么意思
  8. 信奥赛一本通 C++题解 2041【例5.9】新矩阵
  9. 蓝桥杯 试题 算法训练 P0704 回文数和质数
  10. LOJ 6131 Fiend - 行列式 - 可并堆 - 贪心