入门

# 比如我们要对 `我来到中华人民共和国` 这句话做一个分词,我们来人为分一下
1. 我 / 来到 / 中华人民共和国
2. 我 / 来到 / 中华 / 华人 / 人民 / 中华人民 / 中华人民共和国 / 共和国

对于中文我们有不不同的分词方法,但是从我们当下的这个语境上看,肯定第一种分词方式是我们想要的。但是在不同的上下文,可能我们需要的是第二种分词方式。

有很多开源的分词工具可以帮助我们做这个事情,比如Jieba,NLPIR[中科院]HanLP,LTP[哈工大]等等。各家的分词工具包会略有差异,但是大方向是不变的,目的都是为了中文分词

代码测试

导入依赖

 <dependency><groupId>com.hankcs</groupId><artifactId>hanlp</artifactId><version>portable-1.7.8</version>
</dependency>
import com.hankcs.hanlp.HanLP
import com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary
import com.hankcs.hanlp.seg.common.Termimport java.util
import scala.collection.JavaConversions._object myTestnlp extends App {System.setProperty("HADOOP_USER_NAME", "root")//开启调试模式(会降低性能)HanLP.Config.enableDebug()val str = "你好上海,丁香路合欢路"//参数:text – 文本//返回:切分后的单词val terms: util.List[Term] = HanLP.segment(str)//对分词结果应用过滤CoreStopWordDictionary.apply(terms)private val res: String = terms.map(term => {//term.nature 代表词性(term.word, term.nature)}).mkString(",")println(s"res = ${res}")
}

运行结果

人名角色观察:[  K 1 A 1 ][你好 L 2 ][上海 L 35 K 34 ][, K 532 L 151 M 24 ][丁香 X 2 ][路 B 482 D 254 L 157 C 120 E 57 K 19 ][合欢 A 20833310 ][路 B 482 D 254 L 157 C 120 E 57 K 19 ][  K 1 A 1 ]
人名角色标注:[ /K ,你好/L ,上海/K ,,/K ,丁香/X ,路/D ,合欢/A ,路/K , /K]
识别出人名:丁香路 XD
细分词网:
0:[ ]
1:[你好]
2:[]
3:[上海]
4:[]
5:[,]
6:[丁香, 丁香路]
7:[]
8:[路]
9:[合欢]
10:[]
11:[路]
12:[ ]res = (你好,l),(上海,ns),(丁香路,nr),(合欢,n),(路,n)

总结

  • HanLP可以对中文进行分词

中文HanLp分词入门相关推荐

  1. python 分词工具训练_中文分词入门和分词工具汇总攻略

    [注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...

  2. 中文分词入门之字标注法4

    http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E5%AD%97%E6%A0%8 ...

  3. 中文分词入门之字标注法3

    中文分词入门之字标注法3 http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E5% ...

  4. c语言西文空格,中文分词入门之最大匹配法

    中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位.中文分词入门最简单应该是最大匹配法了,当年师兄布置给我的第一 ...

  5. java hanlp分词_Hanlp分词实例:Java实现TFIDF算法

    算法介绍 最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理. 关于TFIDF算法的介绍可以参考这篇博客http://www.ruanyifeng.com/blog/2013 ...

  6. Solr配置中文的分词器-简单配置

    Solr配置中文的分词器 文章目录 Solr配置中文的分词器 英文分词 中文的查询 Solr需要配置中文分词器(重要) 配置中文分词后,再分析一次   这篇文章,主要是讲解Solr如何配置中文分词器, ...

  7. python 分词包_python调用hanlp分词包手记

    python调用hanlp分词包手记 Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类.流水线分词等功能.关于hanlp1.7版本的新功能,后面有 ...

  8. hanlp分词学习笔记

    流行中英文分词工具hanlp: 中英文NLP处理工具包, 基于tensorflow2.0, 使用在学术界和行业中推广最先进的深度学习技术. 使用hanlp进行中文分词: >>> im ...

  9. hanlp java api_python调用hanlp分词包手记

    python调用hanlp分词包手记 Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类.流水线分词等功能.关于hanlp1.7版本的新功能,后面有 ...

最新文章

  1. CSS3---6.文字阴影
  2. Mybatis ResolverUtil的设计概念
  3. mysql 四 表操作
  4. 基于Python Tornado的在线问答系统
  5. 解决ASP.NET上传文件大小限制
  6. JS数组去重方法记录
  7. pat 乙级 1005 继续(3n+1)猜想(C++)
  8. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings
  9. 如何扩大C盘空间,转帖至百度空间
  10. Hive 使用SQL统计出每个用户的累积访问次数
  11. ARMv7的OP-TEE源代码的获取和编译
  12. 在python中安装插件pynput实现聊天窗口消息轰炸
  13. 软件工程之软件维护与再工程
  14. 计算机操作员评分标准,计算机操作员EXCEL操作竞赛样卷与评分标准.doc
  15. css配色大全和色彩原理
  16. iOS 越狱-砸壳工具的使用
  17. 怎样通过穴位按摩来减轻脚踝扭伤的疼痛
  18. 控制工程中的数学建模(9)——音圈电机的原理及数学模型
  19. 华为nova7pro手机计算机在哪里,华为nova7Pro手机使用深度对比实用评测
  20. CSS三栏布局的7种方式代码详解 | 圣杯布局 | 双飞翼布局 | 弹性盒子

热门文章

  1. python代替mathematica_在 Mathematica 里与 Python 交互
  2. 访问量100万的网站服务器,100万访问量 服务器配置
  3. 已解决:mysql: [Warning] Using a password on the command line interface can be insecure.
  4. js 中堆和栈的应用与理解
  5. 微信小程序 data中数据值的更改与储存
  6. 考研预报名即将开始,做好这些实现弯道超车
  7. 编译原理 - SLR(1)
  8. lombok 的使用
  9. ubuntu执行python脚本_在启动时运行python脚本作为守护进程(Ubuntu)
  10. php开发经典问题,PHP开发常见问题集锦(一)