ANSJ 5.0.2

这是一个基于n-Gram+CRF+HMM的中文分词的java实现.
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上
目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.

下载地址 :http://maven.nlpcn.org/org/ansj/

ansj_seg-5.0.2-all-in-one.jar 

单个添加词典

import org.ansj.library.UserDefineLibrary
UserDefineLibrary.insertWord("艾泽拉斯","n",10) //参数(自定义词,词性,词频)
println(parse)//精准分词val parse1 = ToAnalysis.parse("我在艾泽拉斯")println(parse1)[我/r, 在/p, 艾泽拉斯/n]//NLP分词val parse2 = NlpAnalysis.parse("我在艾泽拉斯")println(parse2)[我/r, 在/p, 艾泽拉斯/n]
import org.ansj.splitWord.analysis.{BaseAnalysis, NlpAnalysis, ToAnalysis}
//基础分词val parse = BaseAnalysis.parse("我在艾泽拉斯")[我/r, 在/p, 艾/nr, 泽/ag, 拉/v, 斯/rg]基础分词不支持用户自定义词典,所以不发生改变

单个移除词典

UserDefineLibrary.removeWord("艾泽拉斯")
val parse3 = ToAnalysis.parse("我在艾泽拉斯")
println(parse3)
[我/r, 在/p, 艾泽拉/nr, 斯/rg]

加载自定义词库

import org.ansj.library.UserDefineLibrary
词库格式("自动义词"[tab]键"词性"[tab]键"词频")
UserDefineLibrary.loadLibrary(UserDefineLibrary.FOREST,"/home/spark/opt/hadoop-2.7/bin/address2.dic")
艾泽拉斯    n    1000雷霆图腾    n    1000至高岭    n    1000
[我/r, 在/p, 艾泽拉斯/n, 至高岭/n, 雷霆图腾/n]
println(ToAnalysis.parse("我在艾泽拉斯至高岭雷霆图腾"))
第一个参数直接默认为 
第二个参数词库路径address2.dic 格式
UserDefineLibrary.FOREST

去停用词

import org.ansj.recognition.impl.FilterRecognition
1.根据自定义词去停用词
val filter = new FilterRecognition()
val stopWord = "冠军"
val str = "湖人获得了冠军"val parse4 = ToAnalysis.parse(str).recognition(filter)println(parse4)湖/n,人/n,获得/v,了/ul2.根据词性去停用词val filter1 = new FilterRecognition()filter1.insertStopNatures("n")
val str = "湖人获得了冠军"
val parse5 = ToAnalysis.parse(str).recognition(filter)获得/v,了/ul3.根据正则表达式去停用词val filter2 = new FilterRecognition()filter2.insertStopRegex(Regex)//正则表达式
filter.insertStopWord(stopWord)


SPARK+ANSJ 中文分词基本操作相关推荐

  1. spark+ansj中文分词

    我是在win10中创建的maven项目,使用的是ansj _seg 5.1.6版本 https://github.com/NLPchina/ansj_seg <dependency>< ...

  2. Ansj中文分词Java开发自定义和过滤词库

    Ansj中文分词应用时,需要自定义词库,比如城中村,分词成城.中.村,需自定义词库,有时,也需要过滤单词.具体代码如下,可以结合执行结果看代码效果. 1.过滤词库 package csc.ansj;i ...

  3. Ansj中文分词Java开发词性分类

    用ansj分词后,只提取满足提交的词性的单词. Ansj下载地址:http://maven.ansj.org/org/ansj/ansj_seg/ 辅助包NLP下载地址:http://maven.an ...

  4. Ansj中文分词Java开发小记

    1.ansj中文分词器:https://github.com/NLPchina/ansj_seg 基于n-Gram+CRF+HMM的中文分词的java实现.    分词速度达到每秒钟大约200万字左右 ...

  5. Ansj中文分词使用教程

    摘要: ansj是一个基于n-Gram+CRF+HMM的中文分词的java实现. ansj分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上 Ansj目前实现了.中文 ...

  6. ansj中文分词器详解

    ansj中文分词器详解   最近在做一个人工智能的项目,其中用到了分词功能.从网上找了一些java用于分词的工具,最终选择了ansj中文分词器.个人认为效果和功能是比较优秀的.本文将对ansj的所有功 ...

  7. java Ansj中文分词器

    ##Ansj中文分词 这是一个基于n-Gram+CRF+HMM的中文分词的java实现. 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上目前实现了.中文分词. 中 ...

  8. Ansj中文分词说明

    Ansj分词 这是一个基于n-Gram+条件随机场模型的中文分词的java实现. 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上 目前实现了.中文分词. 中文姓名 ...

  9. 基于java的中文分词工具ANSJ

    ANSJ 这是一个基于n-Gram+CRF+HMM的中文分词的java实现. 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上 目前实现了.中文分词. 中文姓名识别 ...

最新文章

  1. python绘图添加上下标
  2. awk中的NR和FNR
  3. 今天看到这篇新闻之后,决定休息一下咯
  4. 利用python分析了下乘风破浪的姐姐
  5. 扩展java.lang.Thread类
  6. python分析工具有哪些_常用Python数据分析工具汇总
  7. outlook客户端接收邮件报错0x80040600
  8. Sharepoint Server 2007结合AD RMS提高企业信息安全
  9. java 企业 网站源码 后台 springmvc SSM 前台 静态化 代码生成器
  10. C++11 std::chrono库详解
  11. 594.最长和谐子序列(力扣leetcode) 博主可答疑该问题
  12. euraka resttemplate
  13. python刷今日头条访问量_python爬虫实战:刷某博客站点的访问量(转)
  14. 有机酸的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  15. 《S.忒修斯之船》读后感600字心得体会
  16. 八部众---走出软件作坊:三五个人十来条枪 如何成为开发正规军(二十三)
  17. OSPF你懂多少之经典问题50个
  18. 电子测量-不同电压波形对不同检波特性电压表的影响分析
  19. matlab提示参数不足,为什么提示输入参数条目不足?
  20. 微信小程序的开发(前端)

热门文章

  1. Fake-Useragent包的替代方法(随机UA)
  2. 总结两个平常打代码犯的“低级”错误
  3. Tiff转换Bitmap处理方法
  4. 剑指 Offer 15. 二进制中1的个数
  5. 安卓开发中Bundle使用方法:
  6. SAP MM模块/ SD模块
  7. 软件工程-顺序图(时序图)
  8. 《Web实战指南》00:万维网之父:蒂姆·伯纳斯·李
  9. window10系统 onedrive账号解冻方法
  10. python画圣诞老人_使用Python给头像加上圣诞帽或圣诞老人小图标附源码