Java 处理英文文本标点符号去除
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。
未经本人允许禁止转载。
文章目录
- 介绍
- java判断是否为标点符号
介绍
在英文文本处理时,需要将噪音字符出去,其中标点符号便属于噪音字符。在我的这篇博客中,https://blog.csdn.net/qy20115549/article/details/83869689 介绍了使用stanford-corenlp实现分词、词形还原的操作。其分词结果,标点符号也成了独立的字符串,剩下的工作便是对分词后获得的字符串集合进行逐个判断(即判断是否为标点符号,是否为停用词、是否为URL字符等)。
在我的这篇博客中https://blog.csdn.net/qy20115549/article/details/80684455,也已经介绍了停用词的处理。
java判断是否为标点符号
如下,为java操作程序:
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class Test1 {public static void main(String[] args) {String c1 = "¥";System.out.println("¥是否为标点符号:" + isPunctuation(c1));String c2 = "we-are";System.out.println("we-are是否为标点符号:" + isPunctuation(c2));}//判断是否为标点符号public static boolean isPunctuation(String str) {String regEx = "[`~☆★!@#$%^&*()+=|{}':;,\\[\\]》·.<>/?~!@#¥%……()——+|{}【】‘;:”“’。,、?]";Pattern p = Pattern.compile(regEx);Matcher m = p.matcher(str);//如果长度为1且能匹配正则表达式if (str.length() == 1 && m.matches()) {return true;}else {return false;}}
}
执行该程序,在控制台的输出结果为:
Java 处理英文文本标点符号去除相关推荐
- 用java统计英文文本的单词个数_统计文本英文单词总个数,并列出每个单词的个数...
package test; /* * Task :统计文本英文单词总个数,并列出每个单词的个数 * * Date:2014.02.26 * *Author:璀若星辰 * */ import java. ...
- python 文本处理 保留中英文和标点符号_问一下处理英文文本
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 输入一段英文文本,统计出现频率最高的前10个单词(除去of.a.the.and.be.to等无意义词语).提示:在统计单词出现频率之前,需要先进行预处理解 ...
- 算法:去除英文文本中重复单词
要求: 假设有一段英文文本,其中有重复的单词,要求去除重复单词,只保留一个,例如"hello world hello python",程序输出为"hello world ...
- Java英汉翻译程序_java实现简单的英文文本单词翻译器功能示例
本文实例讲述了java实现简单的英文文本单词翻译器功能.分享给大家供大家参考,具体如下: 直接上代码: package fanyi; import java.io.bufferedreader; im ...
- java编写翻译字典数据库_java实现简单的英文文本单词翻译器功能示例
本文实例讲述了java实现简单的英文文本单词翻译器功能.分享给大家供大家参考,具体如下: 直接上代码: package fanyi; import java.io.BufferedReader; im ...
- JAVA小练习之英文文本词频统计(三)
写在开头:本次的小练习主要会运用一些字典的排序,由于对JAVA不是很熟悉,所以有的地方会不太能够解读,搜索了部分网上的资料. 英文文本词频统计 任务目标:统计英文文本中出现频率最高的5个单词,需要处理 ...
- java 简单的英文文本单词翻译器
直接上代码: package fanyi;import java.io.BufferedReader; import java.io.File; import java.io.FileInputStr ...
- java实现单词_java实现简单的英文文本单词翻译器功能示例
导读热词 本文实例讲述了java实现简单的英文文本单词翻译器功能.分享给大家供大家参考,具体如下: 直接上代码: package fanyi; import java.io.BufferedReade ...
- 【java】统计英文文本中某些字母出现的次数
如何统计英文文本中某些字母出现的次数 public class Java_3 {public static void main(String[] args) {String text = " ...
- java实现英文转摩尔斯电码传输(一)
java实现英文转摩尔斯电码传输(一) 摩尔斯电码简介: 摩尔斯电码(Morse code)也被称作摩斯密码,是一种时通时断的信号代码,通过不同的排列顺序来表达不同的英文字母.数字和标点符号.它发明于 ...
最新文章
- Mobileye高级驾驶辅助系统(ADAS)
- 在C++工程中设置全局函数
- 【视频课】图像分割最新内容来了(言有三新录制6大理论部分+1个案例实践讲解)...
- Fragment要点复习
- 洛谷1090 合并果子
- Composite(组合)--对象结构型模式
- python的UnboundLocalError: local variable 'xxx' referenced before assignment
- 终于回应!GitHub 承认解雇犹太员工的错误并道歉,HR 负责人辞职
- 近乎 5.3 发布,SNS 社区系统
- 【GIS开发者】(GISDeveloper) 11-14期 提供下载
- HTTP 权威指南 阅读笔记
- Linux redis常用命令
- ad采样频率_涨知识!模拟信号采样与AD转换详解
- PCB中产生电磁干扰的原因及消除干扰技巧
- Firefox书签同步工具Xmarks
- 知识图到文本的生成(十一)
- 在线教育未来的发展前景如何?
- Word2003快速操作技巧及常用快捷键使用
- Windows和Linux下排查C++软件异常的常用调试器与内存检测工具详细介绍
- 怎么把avi转换成mp4?
热门文章
- C语言>>输入两个字符串,比较这两个字符串是否相同并输出比较结果。要求不用任何字符串处理函数。
- openwrt-mt7628 wds配置
- cidaemon.exe进程cpu使用率100%
- git:info: detecting host provider for ‘https://gitee.com/‘...
- 最小二乘法的对偶形式(CVX)
- 揭秘腾讯代码管理核心—工蜂Git系统架构
- mysql中标识列是什么意思_数据库标识列是什么意思
- 信奥赛一本通 C++题解 2041【例5.9】新矩阵
- 蓝桥杯 试题 算法训练 P0704 回文数和质数
- LOJ 6131 Fiend - 行列式 - 可并堆 - 贪心