1.  整体思路

第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。

第二步:使用停用词表,去除分好的词中的停用词。

2.  中文文本分词环境配置

使用的HanLP-汉语言处理包进行中文文本分词。

·HanLP-汉语言处理包下载,可以去github上下载

·HanLP 的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.properties。

·官方环境配置步骤也可以在github上查询到。

·环境配置好后,java使用HanLP进行中文分词文档如下:hanlp.linrunsoft.com/doc.html

3.  下载停用词表

停用词表可以去百度或者其他搜索引擎检索一份,很容易就找到!

4.  去除停用词工具类

使用这个工具类的之前,请先完成中文文本分词环境配置,并测试一下。停用词 .txt 文件路径请修改为自己的本地路径。

图1

5.  工具类测试

5.1  测试代码

public class test {

public static void main(String args[]) {

try {

System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。举头望明月,低头思故乡。"));

} catch (IOException e) {

e.printStackTrace();

}

}

5.2  测试结果

去停用词 java代码_如何在java中去除中文文本的停用词相关推荐

  1. 如何在java中去除中文文本的停用词

    2019独角兽企业重金招聘Python工程师标准>>> 1.  整体思路 第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词. 第二步:使用停用词表,去 ...

  2. amd cpu不能在cmd环境下运行java代码_如何在Windows10中配置java的JDK环境

    今天给大家分享一下如何配置java的JDK环境.操作步骤如下: 1.下载好 jdk 的安装文件,我下载的是 jdk-10.0.1_windows-x64_bin.exe 这个版本的安装文件: 2.使用 ...

  3. java类添加单元测试代码_如何在java中单元测试时跳过一段代码

    如果问题确实是: 如何在Java 然后我给出的答案同意单元测试时,我跳过一段代码.依赖注入,嘲讽框架绝对是真正的单元测试的正确途径. 但是,如果问题是: 使用JUnit(或其他单元测试框架) 然后我想 ...

  4. 红牛农场java代码_实验题目 Java语言概述.doc

    实验题目 Java语言概述 实验一 Java语言概述 [实验目的] 1.掌握开发Java应用程序的三个步骤:编写源文件.编译源文件和运行应用程序. 2.熟悉Java应用程序的基本结构,并能联合编译应用 ...

  5. 小学数学闯关游戏 java代码_简单的java程序 小学数学闯关游戏 多谢高分

    展开全部 有4个类 MainFrame,Question,QuestionPanel,ResultPanel import java.awt.BorderLayout; import java.awt ...

  6. java 运费_如何在Java中创建运费成本计算器

    我正在创建计算器来计算运费.代码是这样的:如何在Java中创建运费成本计算器 class ShippingCalc { public static void main(String[] args) { ...

  7. java 二叉查找树_如何在Java中实现二叉搜索树( binary search tree)?

    二叉搜索树或BST是一种流行的数据结构,用于保持元素的顺序.二叉搜索树是二叉树,其中左子节点的值小于或等于父节点,右子节点的值大于或等于父节点.由于它是二叉树,它只能有0,1或2个子节点.二叉搜索树之 ...

  8. html中看到php代码_如何在HTML中嵌入PHP代码

    如何在HTML中嵌入PHP代码 对于一个有经验的 PHP Web 开发者,在HTML中嵌入PHP代码是一件非常容易的事情.但是对于刚开始接触 PHP 编程语言的新手这就是一个问题.下面是小编为大家带来 ...

  9. cmd中加载java源文件_如何在cmd中编译和运行java源文件

    如何在cmd中编译和运行java源文件 首先写一个名为HelloWorld.java的java源文件,存储在如C:/java/src的地址,我们再假设待会要存储的位置是C:/java/bin,则我们做 ...

最新文章

  1. Android 中文API (70) —— BluetoothDevice[蓝牙]
  2. tomcat + memcached session manager共享session
  3. javascript DOM对象
  4. c语言中的目标程序的正确含义,C语言程序设计练习题整理要点.doc
  5. RPC框架系列——Protocol Buffers
  6. 想了解 spring-cloud-kubernetes,那就先来实战一把官方demo
  7. NET框架下使用双缓冲技术绘图
  8. 华为将发布“鸿蒙”以取代 Android 系统
  9. Android proguard 详解
  10. 计算机软件行业各职位英文缩写
  11. 阿里巴巴国际站关键字抓取工具
  12. android 计时器 开始 停止 继续和暂停
  13. ssm个人微空间图片相册共享系统
  14. 基于NT98530的多目VR摄像机方案,多sensor同步,多sensor防抖,PTP校时,实景SLAM数字孪生的最佳搭档。
  15. 职场生涯规划中必须学会的十种能力
  16. 大数据开发常用的编程语言有哪些
  17. 怎么压缩视频?教你几个把视频压缩变小的操作
  18. JAVA两年5009_【JAVA】PAT 乙级 1059 C语言竞赛(测试点1、2超时) 内含1-10000的素数表和0-10000是否素数的boolean值...
  19. 法国大数据分析协作初创企业Dataiku获1400万美元风险投资
  20. www描述语言是html,描述语言

热门文章

  1. gnome3增加自定义程序快捷方式
  2. imp导入时触发器的状态
  3. codewars--js--Hamming Numbers
  4. A1035. 素数之和
  5. bzoj1116 [POI2008]CLO
  6. .NET C#语言基础 20140814
  7. Entity Framework
  8. 92.芯片组 93.北桥 94.南桥
  9. 2021年高考,26地公布高考出分时间
  10. Python语言编程之LEGB变量作用域法则