以下解释来源于网络-百度百科

1.word分词器

word分词 [1]  是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词性标注、同义标注、反义标注、拼音标注等功能。同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。

听着就不叼,就没深入研究

2、ansj
ansj_seg分词器个人觉得是开源分词器里最强悍功能最丰富的。ansj_seg基于中科院的 ictclas 中文分词算法,智能、高效。虽然现在已经有ictclas 的for java版本,但是 ansj_seg从实现到使用来说要强大的多,而且作者自产自销自用,很多细节和小功能都有考虑,在索引和自然语言分析方面都有很优秀的表现。ansj_seg可以作为ictclas 算法实现的分词器的代表出场。

这个我有jar但是代码我没搞懂就没贴

3、IKanalyzer
IKanalyzer采用的是“正向迭代最细粒度切分算法”,是比较常见而且很容易上手的分词器了。一般新手上路学习lucene或者solr都会用这个。优点是开源(其实java分词器多是开源的,毕竟算法都是业内熟知的)、轻量、目前来看没有太大的bug,源码简单易懂,做二次开发也很简单,即使遇到solr/Lucene版本更新,只需要自己稍微修改下实现类就可以通用。

4、mmseg4j

mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j已经实现了这两种分词算法。

5、jcseg

jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组件,不是针对lucene而开发,但是提供了最新版本的lucene和solr分词接口。

IK Analyze的代码实现

 1 import java.io.BufferedReader;
 2 import java.io.BufferedWriter;
 3 import java.io.File;
 4 import java.io.FileInputStream;
 5 import java.io.FileWriter;
 6 import java.io.InputStreamReader;
 7 import java.io.StringReader;
 8
 9 import org.apache.lucene.analysis.Analyzer;
10 import org.apache.lucene.analysis.TokenStream;
11 import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
12 import org.wltea.analyzer.lucene.IKAnalyzer;
13
14 /**
15  *
16  * @author zps
17  *
18  */
19 public class Test {
20
21     public static void main(String[] args) throws Exception {
22
23         String encoding = "UTF-8";
24         String text = null;
25         File file = new File("C:\\Users\\dell\\Desktop\\大数据\\热词数据\\热词数据.txt");//将要被分词的文本
26         File file1 =new File("C:\\Users\\dell\\Desktop\\大数据\\热词细胞词库\\热词数据1.txt");//分完词的文本
27         if(!file.exists()){
28             file.createNewFile();
29            }
30         FileWriter fw = new FileWriter(file1.getAbsoluteFile());
31         BufferedWriter bw = new BufferedWriter(fw);
32         if (file.isFile() && file.exists()) { //判断文件是否存在
33             InputStreamReader read = new InputStreamReader(
34             new FileInputStream(file), encoding);//考虑到编码格式
35             BufferedReader bufferedReader = new BufferedReader(read);
36            // String text = null;
37
38
39             while ((text = bufferedReader.readLine()) != null) {
40                 Analyzer analyzer = new IKAnalyzer(true);
41                 StringReader reader = new StringReader(text);
42                 TokenStream ts = analyzer.tokenStream("", reader);
43                 CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);
44                    //System.out.println(text);
45                 while(ts.incrementToken()){
46                        System.out.println(term.toString()+"|");
47                        bw.write(term.toString()+" ");
48                    }
49                 bw.write("\r\n");
50                 analyzer.close();
51                 reader.close();
52                   }
53
54             read.close();
55             bw.close();
56
57         } else {
58             System.out.println("找不到指定的文件");
59         }
60
61
62         //String text = "数据的福利局撒放了肯德基萨芬快乐圣诞节疯狂了";
63         //Analyzer analyzer = new IKAnalyzer(false);
64
65     }
66
67 }

这个代码不仅仅是分词还把分完的词保存到了

C:\\Users\\dell\\Desktop\\大数据\\热词细胞词库\\热词数据1.txt

可以去官网下载

这三个文件放到根目录

IKAnalyze.cfg.xml

里面的内容

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>  <comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 <entry key="ext_dict">ext.dic;</entry> --><entry key="ext_dict">MyDic.dic;</entry><!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords">stopword.dic;</entry> </properties>

需要的jar

注意Lucene的版本号必须是3.6.0

转载于:https://www.cnblogs.com/zpsblog/p/10590950.html

常见的四种文本自动分词详解及IK Analyze的代码实现相关推荐

  1. mvc ajax提交html标签,Mvc提交表单的四种方法全程详解

    Mvc提交表单的四种方法全程详解 2019-01-05 编程之家 https://www.jb51.cc 编程之家收集整理的这篇文章主要介绍了Mvc提交表单的四种方法全程详解,编程之家小编觉得挺不错的 ...

  2. PCBA加工中常见的两种焊接方式详解

    PCBA加工中常见的两种焊接方式详解 PCBA加工,两种常见的焊接方式就是回流焊和波峰焊,与手动焊接技术相比,自动焊接技术具有减少人为因素的影响.提高效率.降低成本.提高质量等优势,在PCBA加工中, ...

  3. 文件服务器文件多备份方案,FileYee数据备份四种备份方案详解

    原标题:FileYee数据备份四种备份方案详解 其实有很多用户对FileYee数据备份软件不是特别熟悉,今天小编带大家了解一下FileYee的四种备份方案,一定会让大家对于数据备份有一个新的了解. 之 ...

  4. 四种形态图解_中纪委”四种形态“指标体系详解

    中纪委"四种形态"指标体系详解 中纪委自提出"四种形态"以来,官方.民间一直对"四种 形态"各包含什么内容, 在具体实践中如何应用, 存在较 ...

  5. JVM之垃圾收集机制四种GC算法详解

    JVM之四种GC算法详解 目录: 什么是GC? GC算法之引用计数法 GC算法之复制算法(Copying) GC算法之标记清除(Mark-Sweep) GC算法之标记压缩(Mark-Compact) ...

  6. 微信小程序四种json配置文件详解

    知识点: app.json配置文件 project.config.json配置文件 sitemap.json配置文件 页面文件夹中的.json配置文件 上片文章讲到 微信小程序有四种json配置文件, ...

  7. 组件中使用_React四种组件通信详解

    组件间通信常见的几种情况 一.父组件到子组件 二.子组件到父组件 三.跨级组件 四.非嵌套组件 1)父组件到子组件:通常父组件使用props向子组件传递,然后子组件处理 父组件Parent.js 子组 ...

  8. mysql 秒杀 隔离级别_MySQL 四种隔离级别详解,看完吊打面试官

    什么是事务 事务是应用程序中一系列严密的操作,所有操作必须成功完成,否则在每个操作中所作的所有更改都会被撤消.也就是事务具有原子性,一个事务中的一系列的操作要么全部成功,要么一个都不做. 事务的结束有 ...

  9. POE工业交换机的四种接法详解

    PoE工业交换机具有电信级性能特征,可耐受严苛的工作环境.PoE交换机产品系列丰富,端口配置灵活,可满足各种工业领域的使用需求.那么,POE工业交换机该怎么接线呢?接下来就由飞畅科技的小编来为大家详细 ...

最新文章

  1. readelf小尝试
  2. GIT:如何管理本机的多个ssh密钥(多个远程仓库账号)
  3. 没有“好的”数据,AI就没有未来?听听云测数据怎么说
  4. symbol lookup error
  5. perl 处理文件路径的一些模块
  6. long java 比较_Java到底是不是一种纯面向对象语言?
  7. php 执行 javascript,Bash/PHP/Javascript:如何运行输出javascript的php文件,并执行该javascript?...
  8. 【2019.09.08】2019icpc南昌网络赛
  9. 初学Linux (Linux_note)
  10. 日本定了一个小目标,在2030年让五分之一的汽车实现自动驾驶
  11. 『PyTorch x TensorFlow』第六弹_从最小二乘法看自动求导
  12. 【测绘程序设计】C#将度分秒(° ‘ “)转换度(°)程序实现(附源码)
  13. Coroutine协成
  14. 面试5173的奇葩经历——老板与员工的博弈论
  15. 要考试了,通过爬虫获取试题,最后再看2小时
  16. osu计算机专业排名,OSU计算机专业有奖学金啦~
  17. python根据题库答案自动答题_python实现百万答题自动百度搜索答案
  18. 【与GPT对话】杂记
  19. prometheus联邦集群
  20. 【Nodejs】Nodejs入门必知

热门文章

  1. java ssm框架做增删改查,使用SSM框架组合实现增删改查的功能
  2. java.lang.IllegalStateException: UT010019: Response already commited
  3. 设置Cookie请求头报错(Refused to set unsafe header “Cookie“)
  4. 数据库数据类型和占用字节数对比
  5. java数据类型double保留两位小数
  6. MVC5 Action的view()直接输出字符串方式
  7. 1到10所有数字相加求和
  8. Web安全之点击劫持
  9. C1 WPF C1FlexGrid设置样式技巧:单元格设置背景色
  10. Octopress使用中经验总结