用ansj分词后,只提取满足提交的词性的单词。

Ansj下载地址:http://maven.ansj.org/org/ansj/ansj_seg/

辅助包NLP下载地址:http://maven.ansj.org/org/nlpcn/nlp-lang/

这两个包引入Java工程中即可,具体代码如下:

package csc.ansj;

import java.util.Iterator;

import org.ansj.domain.Result;

import org.ansj.domain.Term;

import org.ansj.splitWord.analysis.ToAnalysis;

import csc.util.Logs;

public class ChnWordSeg {

//中文分词

public String chnSeg(String content){

String strResult="";

try{

//分词

Result segWords=ToAnalysis.parse(content);

//提取分词

Iterator segTerms=segWords.iterator();

StringBuffer strbuf=new StringBuffer();

while (segTerms.hasNext()) {

Term tm=segTerms.next();

String strNs=tm.getNatureStr();//获取词性

if(strNs=="null") continue;

char cns=strNs.charAt(0);//取词性第一个字母

//http://nlpchina.github.io/ansj_seg/content.html?name=词性说明

if(cns=='n' || cns=='t' || cns=='s' ||//名词、时间词、处所词

cns=='f' || cns=='v' || cns=='a' || //方位词、动词、形容词

cns=='b' || cns=='z' || cns=='r' ||//区别词、状态词、代词

strNs.equals("mq") || cns=='q' || cns=='d' ||//数词、数量词、副词

cns=='y' || cns=='x' || strNs.equals("en")){//语气词、字符串x、英文

//介词p、连词c、助词u、叹词e、拟声词o、标点符号w、前缀h、后缀k不获取 ,数词m只获取其中mq数量词

String strNm=tm.getName();

strbuf.append(strNm+"|");

}

//strbuf.append("\r\n");//换行

}

strResult=strbuf.toString();

strResult=strResult.substring(0,strResult.length()-1);//截取最后一个字符|

}catch (Exception e) {

System.out.println(e.getMessage());

Logs.writeLogs("中文分词失败!");

}

return strResult;

}

public static void main(String args[]) {

String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;

//System.out.println(ToAnalysis.parse(str).toString());

ChnWordSeg cws=new ChnWordSeg();

System.out.println(cws.chnSeg(str));

}

}

java 分词获取词性_Ansj中文分词Java开发词性分类相关推荐

  1. python 分词工具训练_中文分词入门和分词工具汇总攻略

    [注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...

  2. Lucene分词器,使用中文分词器,扩展词库,停用词

    2019独角兽企业重金招聘Python工程师标准>>> Lucene分词器,使用中文分词器,扩展词库,停用词 博客分类: 搜索引擎,爬虫 停止词:lucene的停止词是无功能意义的词 ...

  3. 分词器以及ik中文分词器

    文章目录 分词器以及ik中文分词器 概念 ik分词器的安装 环境准备 设置jdk环境变量 下载maven安装包并解压 设置path 验证maven是否安装成功 下载IK分词器并安装 使用IK分词器 查 ...

  4. 基于条件随机场模型的中文分词改进(Python中文分词)

    目录 改进分词速度 一.更改存储特征值的数据结构 二.缩短对语料库的遍历时间(对语料库的预处理) 三.先将所有的特征值保存到数据库中 改进分词的准确度 实验项目和结果截图 实验项目 保存特征值时采用多 ...

  5. Java开源的11个中文分词器使用方法和分词效果对比

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  6. java正向最大匹配算法_java中文分词之正向最大匹配法实例代码

    前言 基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典. 所谓词典正向最大匹配就是将一段字符串进行分隔,其中分隔 的长度有限制,然后将分隔的子 ...

  7. 公司开源的java分词,Java开源项目cws_evaluation:中文分词器分词效果评估

    通过对前文<word分词器.ansj分词器.mmseg4j分词器.ik-analyzer分词器分词效果评估>中写的评估程序进行重构改进,形成了一个新的Java开源项目cws_evaluat ...

  8. java语言文本挖掘 分词_文本挖掘之中文分词入门

    中文分词 分词,就是将0维的非格式化文本转为格式化.向量化数据 中文分词(Chinese Word Segmentation) 是将一个汉字序列切分成一个个单独的词. 英文文档中,单词之间是以空格作为 ...

  9. python 分词工具训练_Python中文分词工具大合集:安装、使用和测试

    这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...

  10. python中文分词统计_python 实现中文分词统计

    总是看到别人用Python搞各种统计,前端菜鸟的我也来尝试了一把.有各种语义分析库在,一切好像并不是很复杂.不过Python刚开始看,估计代码有点丑. 一.两种中文分词开发包 thulac (http ...

最新文章

  1. 《今日简史》读书笔记(未完待续)
  2. 解决Android 编译出错 找不到android.databinding.ViewDataBinding的类文件
  3. Robots.txt - 禁止爬虫(转)
  4. 为什么越来越多的开发者选择使用Spring Boot
  5. ps、grep和kill联合使用杀掉进程
  6. 改变多目标跟踪领域!CMU等推出大规模多类别MOT数据集TAO
  7. 程序员技术测评平台,猿圈宣布获智联数千万 A+轮战略融资
  8. react-nativeAndroid打包报错:Daemon: AAPT2 aapt2-3.2.1-4818971-osx Daemon #0
  9. 计算机网络负载均衡图片,负载均衡计算机网络课程网.ppt
  10. 深度学习入门(看了就会)
  11. java excel 水印_Java 添加Excel水印
  12. matlab怎么计算泰尔指数,求助:泰尔指数怎么算呢
  13. linux的镜像文件有什么用,【iso】iso是什么?iso是什么意思?
  14. 企业微信如何发成绩给家长-Leo老师来教你
  15. 书写阿拉伯数字 0、1、2、3、4、5、6、7、8、9
  16. java整合消息推送_SpringMVC整合websocket实现消息推送及触发功能
  17. 游戏建模师的现状如何?
  18. 海报设计字体素材|海报字体设计的精髓都在这了
  19. 人脸识别撞脸名画_你可能撞脸世界名画 支付宝让你遇见名画中的自
  20. 科学计算机怎么刷机,华为p1怎么刷机【图文教程】

热门文章

  1. 安卓view.getMeasuredHeight()得到的高度单位以及dp和px的转换
  2. linux系统中 为mysql还原数据库_linux中mysql还原数据库命令
  3. 编译原理实验,赋值语句的语法分析程序设计
  4. 文档服务器设置密码,服务器密码设置要求
  5. 计算字符串长度函数大全
  6. Windows系统中禁止某应用程序联网操作方法
  7. SSM医院挂号就诊预约系统 毕业设计-附源码250853
  8. 虚拟化:十大虚拟化最佳实践
  9. 都9012年了还没用过typescript?
  10. python图片表格转excel表格_利用Python+Opencv+pytesser把图像识别为Excel表格