去停用词 java代码_如何在java中去除中文文本的停用词
1. 整体思路
第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。
第二步:使用停用词表,去除分好的词中的停用词。
2. 中文文本分词环境配置
使用的HanLP-汉语言处理包进行中文文本分词。
·HanLP-汉语言处理包下载,可以去github上下载
·HanLP 的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.properties。
·官方环境配置步骤也可以在github上查询到。
·环境配置好后,java使用HanLP进行中文分词文档如下:hanlp.linrunsoft.com/doc.html
3. 下载停用词表
停用词表可以去百度或者其他搜索引擎检索一份,很容易就找到!
4. 去除停用词工具类
使用这个工具类的之前,请先完成中文文本分词环境配置,并测试一下。停用词 .txt 文件路径请修改为自己的本地路径。
图1
5. 工具类测试
5.1 测试代码
public class test {
public static void main(String args[]) {
try {
System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。举头望明月,低头思故乡。"));
} catch (IOException e) {
e.printStackTrace();
}
}
5.2 测试结果
去停用词 java代码_如何在java中去除中文文本的停用词相关推荐
- 如何在java中去除中文文本的停用词
2019独角兽企业重金招聘Python工程师标准>>> 1. 整体思路 第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词. 第二步:使用停用词表,去 ...
- amd cpu不能在cmd环境下运行java代码_如何在Windows10中配置java的JDK环境
今天给大家分享一下如何配置java的JDK环境.操作步骤如下: 1.下载好 jdk 的安装文件,我下载的是 jdk-10.0.1_windows-x64_bin.exe 这个版本的安装文件: 2.使用 ...
- java类添加单元测试代码_如何在java中单元测试时跳过一段代码
如果问题确实是: 如何在Java 然后我给出的答案同意单元测试时,我跳过一段代码.依赖注入,嘲讽框架绝对是真正的单元测试的正确途径. 但是,如果问题是: 使用JUnit(或其他单元测试框架) 然后我想 ...
- 红牛农场java代码_实验题目 Java语言概述.doc
实验题目 Java语言概述 实验一 Java语言概述 [实验目的] 1.掌握开发Java应用程序的三个步骤:编写源文件.编译源文件和运行应用程序. 2.熟悉Java应用程序的基本结构,并能联合编译应用 ...
- 小学数学闯关游戏 java代码_简单的java程序 小学数学闯关游戏 多谢高分
展开全部 有4个类 MainFrame,Question,QuestionPanel,ResultPanel import java.awt.BorderLayout; import java.awt ...
- java 运费_如何在Java中创建运费成本计算器
我正在创建计算器来计算运费.代码是这样的:如何在Java中创建运费成本计算器 class ShippingCalc { public static void main(String[] args) { ...
- java 二叉查找树_如何在Java中实现二叉搜索树( binary search tree)?
二叉搜索树或BST是一种流行的数据结构,用于保持元素的顺序.二叉搜索树是二叉树,其中左子节点的值小于或等于父节点,右子节点的值大于或等于父节点.由于它是二叉树,它只能有0,1或2个子节点.二叉搜索树之 ...
- html中看到php代码_如何在HTML中嵌入PHP代码
如何在HTML中嵌入PHP代码 对于一个有经验的 PHP Web 开发者,在HTML中嵌入PHP代码是一件非常容易的事情.但是对于刚开始接触 PHP 编程语言的新手这就是一个问题.下面是小编为大家带来 ...
- cmd中加载java源文件_如何在cmd中编译和运行java源文件
如何在cmd中编译和运行java源文件 首先写一个名为HelloWorld.java的java源文件,存储在如C:/java/src的地址,我们再假设待会要存储的位置是C:/java/bin,则我们做 ...
最新文章
- Android 中文API (70) —— BluetoothDevice[蓝牙]
- tomcat + memcached session manager共享session
- javascript DOM对象
- c语言中的目标程序的正确含义,C语言程序设计练习题整理要点.doc
- RPC框架系列——Protocol Buffers
- 想了解 spring-cloud-kubernetes,那就先来实战一把官方demo
- NET框架下使用双缓冲技术绘图
- 华为将发布“鸿蒙”以取代 Android 系统
- Android proguard 详解
- 计算机软件行业各职位英文缩写
- 阿里巴巴国际站关键字抓取工具
- android 计时器 开始 停止 继续和暂停
- ssm个人微空间图片相册共享系统
- 基于NT98530的多目VR摄像机方案,多sensor同步,多sensor防抖,PTP校时,实景SLAM数字孪生的最佳搭档。
- 职场生涯规划中必须学会的十种能力
- 大数据开发常用的编程语言有哪些
- 怎么压缩视频?教你几个把视频压缩变小的操作
- JAVA两年5009_【JAVA】PAT 乙级 1059 C语言竞赛(测试点1、2超时) 内含1-10000的素数表和0-10000是否素数的boolean值...
- 法国大数据分析协作初创企业Dataiku获1400万美元风险投资
- www描述语言是html,描述语言