java 分词获取词性_Ansj中文分词Java开发词性分类
用ansj分词后,只提取满足提交的词性的单词。
Ansj下载地址:http://maven.ansj.org/org/ansj/ansj_seg/
辅助包NLP下载地址:http://maven.ansj.org/org/nlpcn/nlp-lang/
这两个包引入Java工程中即可,具体代码如下:
package csc.ansj;
import java.util.Iterator;
import org.ansj.domain.Result;
import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.ToAnalysis;
import csc.util.Logs;
public class ChnWordSeg {
//中文分词
public String chnSeg(String content){
String strResult="";
try{
//分词
Result segWords=ToAnalysis.parse(content);
//提取分词
Iterator segTerms=segWords.iterator();
StringBuffer strbuf=new StringBuffer();
while (segTerms.hasNext()) {
Term tm=segTerms.next();
String strNs=tm.getNatureStr();//获取词性
if(strNs=="null") continue;
char cns=strNs.charAt(0);//取词性第一个字母
//http://nlpchina.github.io/ansj_seg/content.html?name=词性说明
if(cns=='n' || cns=='t' || cns=='s' ||//名词、时间词、处所词
cns=='f' || cns=='v' || cns=='a' || //方位词、动词、形容词
cns=='b' || cns=='z' || cns=='r' ||//区别词、状态词、代词
strNs.equals("mq") || cns=='q' || cns=='d' ||//数词、数量词、副词
cns=='y' || cns=='x' || strNs.equals("en")){//语气词、字符串x、英文
//介词p、连词c、助词u、叹词e、拟声词o、标点符号w、前缀h、后缀k不获取 ,数词m只获取其中mq数量词
String strNm=tm.getName();
strbuf.append(strNm+"|");
}
//strbuf.append("\r\n");//换行
}
strResult=strbuf.toString();
strResult=strResult.substring(0,strResult.length()-1);//截取最后一个字符|
}catch (Exception e) {
System.out.println(e.getMessage());
Logs.writeLogs("中文分词失败!");
}
return strResult;
}
public static void main(String args[]) {
String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
//System.out.println(ToAnalysis.parse(str).toString());
ChnWordSeg cws=new ChnWordSeg();
System.out.println(cws.chnSeg(str));
}
}
java 分词获取词性_Ansj中文分词Java开发词性分类相关推荐
- python 分词工具训练_中文分词入门和分词工具汇总攻略
[注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...
- Lucene分词器,使用中文分词器,扩展词库,停用词
2019独角兽企业重金招聘Python工程师标准>>> Lucene分词器,使用中文分词器,扩展词库,停用词 博客分类: 搜索引擎,爬虫 停止词:lucene的停止词是无功能意义的词 ...
- 分词器以及ik中文分词器
文章目录 分词器以及ik中文分词器 概念 ik分词器的安装 环境准备 设置jdk环境变量 下载maven安装包并解压 设置path 验证maven是否安装成功 下载IK分词器并安装 使用IK分词器 查 ...
- 基于条件随机场模型的中文分词改进(Python中文分词)
目录 改进分词速度 一.更改存储特征值的数据结构 二.缩短对语料库的遍历时间(对语料库的预处理) 三.先将所有的特征值保存到数据库中 改进分词的准确度 实验项目和结果截图 实验项目 保存特征值时采用多 ...
- Java开源的11个中文分词器使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
- java正向最大匹配算法_java中文分词之正向最大匹配法实例代码
前言 基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典. 所谓词典正向最大匹配就是将一段字符串进行分隔,其中分隔 的长度有限制,然后将分隔的子 ...
- 公司开源的java分词,Java开源项目cws_evaluation:中文分词器分词效果评估
通过对前文<word分词器.ansj分词器.mmseg4j分词器.ik-analyzer分词器分词效果评估>中写的评估程序进行重构改进,形成了一个新的Java开源项目cws_evaluat ...
- java语言文本挖掘 分词_文本挖掘之中文分词入门
中文分词 分词,就是将0维的非格式化文本转为格式化.向量化数据 中文分词(Chinese Word Segmentation) 是将一个汉字序列切分成一个个单独的词. 英文文档中,单词之间是以空格作为 ...
- python 分词工具训练_Python中文分词工具大合集:安装、使用和测试
这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...
- python中文分词统计_python 实现中文分词统计
总是看到别人用Python搞各种统计,前端菜鸟的我也来尝试了一把.有各种语义分析库在,一切好像并不是很复杂.不过Python刚开始看,估计代码有点丑. 一.两种中文分词开发包 thulac (http ...
最新文章
- 《今日简史》读书笔记(未完待续)
- 解决Android 编译出错 找不到android.databinding.ViewDataBinding的类文件
- Robots.txt - 禁止爬虫(转)
- 为什么越来越多的开发者选择使用Spring Boot
- ps、grep和kill联合使用杀掉进程
- 改变多目标跟踪领域!CMU等推出大规模多类别MOT数据集TAO
- 程序员技术测评平台,猿圈宣布获智联数千万 A+轮战略融资
- react-nativeAndroid打包报错:Daemon: AAPT2 aapt2-3.2.1-4818971-osx Daemon #0
- 计算机网络负载均衡图片,负载均衡计算机网络课程网.ppt
- 深度学习入门(看了就会)
- java excel 水印_Java 添加Excel水印
- matlab怎么计算泰尔指数,求助:泰尔指数怎么算呢
- linux的镜像文件有什么用,【iso】iso是什么?iso是什么意思?
- 企业微信如何发成绩给家长-Leo老师来教你
- 书写阿拉伯数字 0、1、2、3、4、5、6、7、8、9
- java整合消息推送_SpringMVC整合websocket实现消息推送及触发功能
- 游戏建模师的现状如何?
- 海报设计字体素材|海报字体设计的精髓都在这了
- 人脸识别撞脸名画_你可能撞脸世界名画 支付宝让你遇见名画中的自
- 科学计算机怎么刷机,华为p1怎么刷机【图文教程】
热门文章
- 安卓view.getMeasuredHeight()得到的高度单位以及dp和px的转换
- linux系统中 为mysql还原数据库_linux中mysql还原数据库命令
- 编译原理实验,赋值语句的语法分析程序设计
- 文档服务器设置密码,服务器密码设置要求
- 计算字符串长度函数大全
- Windows系统中禁止某应用程序联网操作方法
- SSM医院挂号就诊预约系统 毕业设计-附源码250853
- 虚拟化:十大虚拟化最佳实践
- 都9012年了还没用过typescript?
- python图片表格转excel表格_利用Python+Opencv+pytesser把图像识别为Excel表格