Ansj简介

ansj对文件读取分词每秒钟大约30万字,准确率能达到96%以上。

ansj第一步会进行原子切分和全切分,并且是在同时进行的。所谓原子,是指短句中不可分割的最小语素单位。例如,一个汉字就是一个原子。全切分,就是把一句话中的所有词都找出来,只要是字典中有的就找出来。例如,“提高中国人生活水平”包含的词有:提高、高中、中国、国人、人生、生活、活水、水平。接着以“提高中国人生活水平”为例。

Ansj有四种调用方式:

  • 基本分词-BaseAnalysis

基本就是保证了最基本的分词.词语颗粒度最非常小的..所涉及到的词大约是10万左右.

基本分词速度非常快.在macAir上.能到每秒300w字每秒.同时准确率也很高.但是对于新词他的功能十分有限

基本分词所具有的功能:

List<Term> parse = BaseAnalysis.parse("让战士们过一个欢乐祥和的新春佳节。");System.out.println(parse);

结果是:

[让/v, 战士/n, 们/k, 过/ug, 一个/m, 欢乐/a, 祥和/a, 的/uj, 新春/t, 佳节/n, 。/w]
  • 精准分词-ToAnalysis

精准分词是比较推荐的。它在易用性,稳定性.准确性.以及分词效率上.都取得了一个不错的平衡.

如果你初次赏识Ansj如果你想开箱即用.那么就用这个分词方式是不会错的.

精准分词所具有的功能:

    List<Term> parse = ToAnalysis.parse("让战士们过一个欢乐祥和的新春佳节。");System.out.println(parse);

结果如下:

  • nlp分词-NlpAnalysis

nlp分词是总能给你惊喜的一种分词方式.

它可以识别出未登录词.但是它也有它的缺点.速度比较慢.稳定性差.ps:我这里说的慢仅仅是和自己的其他方式比较.应该是40w字每秒的速度吧.

个人觉得nlp的适用方式.1.语法实体名抽取.未登录词整理.只要是对文本进行发现分析等工作

nlp分词具有的功能

List<Term> parse = NlpAnalysis.parse("洁面仪配合洁面深层清洁毛孔 清洁鼻孔面膜碎觉使劲挤才能出一点点皱纹 脸颊毛孔修复的看不见啦 草莓鼻历史遗留问题没辙 脸和脖子差不多颜色的皮肤才是健康的 长期使用安全健康的比同龄人显小五到十岁 28岁的妹子看看你们的鱼尾纹");System.out.println(parse);

结果是:

[洁面仪/nw, 配合/v, 洁面/nw, 深层/b, 清洁/a, 毛孔/n, , 清洁/a, 鼻孔/n, 面膜/n, 碎觉/nw, 使劲/v, 挤/v, 才/d, 能/v, 出/v, 一点点/m, 皱纹/n, , 脸颊/n, 毛孔/n, 修复/v, 的/uj, 看不见/v, 啦/y, , 草莓/n, 鼻/ng, 历史/n, 遗留问题/nz, 没辙/v, , 脸/n, 和/c, 脖子/n, 差不多/l, 颜色/n, 的/uj, 皮肤/n, 才/d, 是/v, 健康/a, 的/uj, , 长期/d, 使用/v, 安全/an, 健康/a, 的/uj, 比/p, 同龄人/n, 显/v, 小/a, 五/m, 到/v, 十岁/m, , 28岁/m, 的/uj, 妹子/n, 看看/v, 你们/r, 的/uj, 鱼尾纹/n]
  • 面向索引的分词-IndexAnalysis

面向索引的分词。故名思议就是适合在lucene等文本检索中用到的分词。 主要考虑以下两点

  • 召回率

    • 召回率是对分词结果尽可能的涵盖。比如对“上海虹桥机场南路” 召回结果是[上海/ns, 上海虹桥机场/nt, 虹桥/ns, 虹桥机场/nz, 机场/n, 南路/nr]
  • 准确率
    • 其实这和召回本身是具有一定矛盾性的Ansj的强大之处是很巧妙的避开了这两个的冲突 。比如我们常见的歧义句“旅游和服务”->对于一般保证召回 。大家会给出的结果是“旅游 和服 服务” 对于ansj不存在跨term的分词。意思就是。召回的词只是针对精准分词之后的结果的一个细分。比较好的解决了这个问题

所具有的功能:

 List<Term> parse = IndexAnalysis.parse("主副食品");System.out.println(parse);

结果是:

[主副食品/n, 主副食, 副食, 副食品, 食品]

学习使用Ansj分词工具(一)相关推荐

  1. 以jieba为首的主流分词工具总结

    工具篇 下面列了几个较为主流的分词工具(排名不分先后,大家自行试用),相关的paper请在订阅号「夕小瑶的卖萌屋」后台回复[中文分词]领取. 1 Jieba 说到分词工具第一个想到的肯定是家喻户晓的& ...

  2. 盘古分词工具学习笔记

    下载了盘古分词工具,学习工具使用的同时学习中文分词基础. 1.  一元分词/二元分词/多元分词/精确分词 一元分词是按字拆分的,比如一句话"梦想很丰满",在盘古分词中使用一元分词拆 ...

  3. 基于java的中文分词工具ANSJ

    ANSJ 这是一个基于n-Gram+CRF+HMM的中文分词的java实现. 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上 目前实现了.中文分词. 中文姓名识别 ...

  4. 分词工具比较及使用(ansj、hanlp、jieba)

    一.分词工具 ansj.hanlp.jieba 二.优缺点 1.ansj 优点: 提供多种分词方式 可直接根据内部词库分出人名.机构等信息 可构造多个词库,在分词时可动态选择所要使用的词库 缺点: 自 ...

  5. 自然语言处理学习笔记2:分词工具及分词原理

    中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.我们知道,在英文的行文中,单词之 ...

  6. java端分词工具ANSJ插件的基本使用

    前言: Java有11大开源中文分词器,分别是word分词器,Ansj分词器,Stanford分词器,FudanNLP分词器,Jieba分词器,Jcseg分词器,MMSeg4j分词器,IKAnalyz ...

  7. Java培训学习之分词工具之HanLP介绍

    HanLP 是由一系列模型和算法组成的Java工具包.目标是普及自然语言处理在生产环境中的应用.它不仅是分词,还提供了词法分析.句法分析.语义理解等完整的功能.HanLP 具有功能齐全.性能高效.结构 ...

  8. jieba库 python2.7 安装_Python中文分词工具大合集:安装、使用和测试

    这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...

  9. python 分词工具训练_中文分词入门和分词工具汇总攻略

    [注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...

  10. 常用的开源中文分词工具

    转载自:  http://www.scholat.com/vpost.html?pid=4477 常用的开源中文分词工具 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及 ...

最新文章

  1. Android NDK 使用自己的共享库(Import Module)
  2. 安全自动化在于信任,而非技术
  3. oracle parallel 并行 设置 理解
  4. Facebook提升性能的一大法宝:HipHop
  5. HDU 3001 Travelling
  6. Cache-Control常用类型
  7. MySql开启远程访问(Linux)
  8. 为什么应该避免JSF
  9. 海天食品的java开发工作如何_再三个月就秋招了,我想找一份java开发工作,现在应该怎么准备一下?...
  10. dj鲜生-让应用的模型类生效,搬家到云服务器-非本地操作
  11. SetWindowHookEx 做消息响应
  12. Android设计模式——抽象工厂方法模式
  13. SQLServer:执行计划
  14. 台式计算机读取不了移动硬盘,电脑识别不了硬盘的原因
  15. Java_实现身份证信息提取个人信息
  16. IDEA Android开发 连接华为手机调试
  17. 【离散数学】数学归纳法
  18. .gitignore文件作用
  19. 中北c语言程序设计,中北大学软件学2013届C语言程序设计实训题目.doc
  20. 数通技术-网络层协议及IP编址

热门文章

  1. LightSpeed ORM .NET简单运用
  2. ASP.NET AJAX中防止用户多次提交页面
  3. iOS 25个性能优化/内存优化常用方法
  4. 笔试+面试信息整理----面向笔试学习、面向面经编程
  5. Dummary、Fake、Stub、Spy、Mock
  6. PHP知识总结(一)
  7. Http下的各种操作类.WebApi系列~通过HttpClient来调用Web Api接口
  8. 动图展示16个Sublime Text快捷键用法 ---------------物化的sublime
  9. jquery消息插件(jquery.messager.js)
  10. 【1024送书】21届校招薪资提前爆料!大厂全部上涨!美团时薪或成最香!