一、前提

IKAnalyzer分词器常应用于大数据开发的数据准备阶段,它能对任意长的文字进行关键字提取、文字重组、数据清洗等二次处理,并将处理好的关键数据通过某种分割符重新拼接起来,形成一个可用于进行机器学习的数据集。

二、准备阶段

使用eclipse创建一个Maven工程,通过配置pom.xml文件来导入IKAnalyzer的jar包,我这用导入的是ikanalyzer-2012_u6.jar,然后在src目录下分别创建IKAnalyzer.cfg.xml、extend.dic、stopword.dic这三个文件,然后再去百度新闻中截取一段新闻内容进行处理。

新闻内容:

多次说幸福都是奋斗出来的,奋斗本身就是一种幸福。辛勤奋斗的人生是精彩的,也值得点赞。2019年1月16日,在河北雄安新区规划展示中心,通过大屏幕连线京雄城际铁路雄安站建设工地现场。他对现场施工人员说:“现在是数九寒冬、天寒地冻,但我们的铁路建设者仍然辛勤劳动着。在此,我代表党中央,向你们并通过你们向全国所有的铁路建设者、劳动者们致以亲切的问候和良好的祝愿!”他勉励大家说,你们正在为雄安新区建设这个“千年大计”做着开路先锋的工作,功不可没。

配置IKAnalyzer.cfg.xml:

extend.dic:扩展词典,是为了让需要切分的语句里面的词根据扩展词典里的词进行比较,对此进行拼接,不切分。

设置extend.dic:

stopword.dic:停止词典,将语句与停用词典进行比较,直接将无用词进行删除

设置stopword.dic:

三、代码

创建一个ik.java文件,代码如下:

四、运行结果

(1)未加载extend.dic和stopword.dic的情况:

多次 说 幸福 都是 奋斗 出来 的 奋斗 本身 就是 一种 幸福 辛勤 奋斗 的 人生 是 精彩 的 也 值 得点 赞 2019年 1月 16日  在 河北 雄 安 新区 规划 展示中心 通过 大屏幕 连线 京 雄 城际 铁路 雄 安 站 建设 工地 现场 他 对 现场 施工人员 说 现在是 数九寒冬 天寒地冻 但 我们 的 铁路 建设者 仍然 辛勤劳动 着 在此 我 代表 党中央 向 你们 并 通过 你们 向 全国 所有 的 铁路 建设者 劳动者 们 致以 亲切 的 问候 和 良好 的 祝愿 他 勉励 大家 说 你们 正 在为 雄 安 新区 建设 这个 千年 大计 做着 开路先锋 的 工作 功不可没

(2) 加载extend.dic和stopword.dic的情况

多次说 幸福 都是 出来 本身 就是 幸福 辛勤 人生是精彩的 也 值得 点赞 2019年1月16日 在 河北 雄安新区 展示中心 通过 大屏幕 连线 京 雄 城际 铁路 雄 安 站 建设 工地 他 对 施工人员 说 现在是 数九寒冬 天寒地冻 但 我们 铁路 建设者 仍然 辛勤劳动 着 在此 我 代表 党中央 向 你们 并 通过 你们 向 全国 所有 铁路 建设者 劳动者 们 致以 亲切 问候 和 良好 祝愿 他 勉励 大家 说 你们 正在为 雄安新区 建设 这个 千年 大计 做着 开路先锋 工作 功不可没

 

 

五、注意事项

修改extend.dic和stopword.dic文件最好使用Notepad++工具,文字编码格式为UTF-8编码

转载于:https://www.cnblogs.com/zjkf8686/p/10351093.html

基于JAVA的IKAnalyzer中文分词运用相关推荐

  1. 基于Java、JSP中文分词的搜索引擎的设计与实现

    技术:Java.JSP等 摘要: 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情.建立搜索引擎就是解决这个问题的最好方法.本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机 ...

  2. 基于Java实现的中文分词系统

    资源下载地址:https://download.csdn.net/download/sheziqiong/85941192 资源下载地址:https://download.csdn.net/downl ...

  3. Java实现敏感词过滤 - IKAnalyzer中文分词工具

    IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包. 官网: https://code.google.com/archive/p/ik-analyzer/ 本用例借助 I ...

  4. 基于垃圾短信与垃圾邮件的检测以及iphone中siri所使用的IKAnalyzer中文分词技术

    刚开始接触安卓开发,导师就让做了一个基于安卓的垃圾短信检测软件,其中中文分词让我搞了一天,我所使用的是IKAnalyzer中文分词技术,这个包已经很是成熟.因为新手在使用中可能会出现导入的工程包错误而 ...

  5. IKAnalyzer中文分词分析内容目录

    IKAnalyzer中文分词的学习: Java开源分词系统IKAnalyzer学习(一) 大致简介 Java开源分词系统IKAnalyzer学习(二) 架构 Java开源分词系统IKAnalyzer学 ...

  6. IKAnalyzer 中文分词器

    IK Analyzer 2012 介绍 IK Analyzer 是一个开源的,基亍 java 语言开发的轻量级的中文分词工具包.从 2006 年 12 月推出 1.0 版开始, IKAnalyzer ...

  7. 【IKAnalyzer】IKAnalyzer中文分词器的使用

    IKAnalyzer中文分词器的使用 IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,也就是可以将一串中文字符分割成一个个的词组或者字词 安装 修改pom文件 < ...

  8. Solr的学习使用之(三)IKAnalyzer中文分词器的配置

    1.为什么要配置? 1.我们知道要使用Solr进行搜索,肯定要对词语进行分词,但是由于Solr的analysis包并没有带支持中文的包或者对中文的分词效果不好,需要自己添加中文分词器:目前呼声较高的是 ...

  9. solr集成IKAnalyzer中文分词器

    如果想要知道如何安装solr,集成IKAnalyzer中文分词器,批量导入数据库数据,java使用参照以下本博主博文: 安装solr https://blog.csdn.net/u013294097/ ...

最新文章

  1. 通过data:image/png;base64把图片直接写在src里
  2. control.add()
  3. vc项目中加载多个lib遇到的问题
  4. tmp ubuntu 自动删除吗_Linux tmp目录自动清理总结
  5. STM32(Cortex-M3)开发,RVDS和MDK谁优谁劣?
  6. 一次MySQL性能优化实战(转)
  7. 【java】Java异常处理总结
  8. JAVA程序设计----练习题
  9. mySql配置在nodejs中使用
  10. 使用Spring Security和OAuth 2.0保护Spring微服务架构
  11. 两组声音的一维数据如何比较相似度_TSNE高维数据降维可视化工具 入门到理解 + python实现...
  12. AS中突然找不到svn选项了。
  13. 东北大学金工实习理论考试重点
  14. UE4简单水体使用记录
  15. 入手新吉他了--雅马哈F600
  16. Google Play 上架全流程_2022年谷歌应用商店上架流程
  17. 携程网移动端首页-学习与自我分析
  18. 2020年wordpress主题开发视频教程、WP主题WP模板开发视频教程
  19. dell inspiron 只有一个飞行模式 没有wifi_教你电脑连不上wifi的解决方法
  20. 【BUG】ELF文件执行时出现段错误Segmentation fault,解决:使用010编辑器修改ELF文件不可执行段权限

热门文章

  1. 使用VSTS为ASP.NET Core构建DevOps CI/CD管道
  2. 选择所有选项的多选复选框列表或复选框下拉列表
  3. NumSharp v0.6.5 .NET矩阵计算库,与TensorFlow.NET无缝融合
  4. indesign拖进去颜色变灰_在 InDesign 中管理颜色
  5. python人脸检测与微信小程序_python+requests对app和微信小程序进行接口测试
  6. 轮盘算法 java_java – 使用轮盘选择的遗传算法
  7. 简易 Vue 构建--篇三
  8. 数组的冒泡排序快速上手
  9. linux内核进程抢占,Re: Linux中进程能否被抢占
  10. 手动angular2环境搭建_详解.Net Core + Angular2 环境搭建