繁简转换

HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。

·说明

· HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的两个“后”字,HanLP可以。

·算法详解

· 《汉字转拼音与简繁转换的Java实现》

汉字转拼音

HanLP中的汉字转拼音功能也十分的强大。

·说明

· HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。

· HanLP能够识别多音字,也能给繁体中文注拼音。

· 最重要的是,HanLP采用的模式匹配升级到AhoCorasickDoubleArrayTrie,性能大幅提升,能够提供毫秒级的响应速度!

·算法详解

· 《汉字转拼音与简繁转换的Java实现》

拼音转中文

HanLP中的数据结构和接口是灵活的,组合这些接口,可以自己创造新功能,我们可以使用AhoCorasickDoubleArrayTrie实现的最长分词器,需要用户调用setTrie()提供一个AhoCorasickDoubleArrayTrie

字符正则化

演示正规化字符配置项的效果(繁体->简体,全角->半角,大写->小写)。

该配置项位于hanlp.properties中,通过Normalization=true来开启(现在直接通过HanLP.Config.Normalization开启即可)。

切换配置后必须删除CustomDictionary.txt.bin缓存,否则只影响动态插入的新词。

在我动笔前一个星期,已经有同学添加了,添加自定义词典之后,自动删除缓存的功能。地址请点击https://github.com/hankcs/HanLP/pull/954,现在只需要开启正则化即可

1| HanLP.Config.Normalization = False

2|

3| [爱听4g]

4| [爱听4G]

5| [爱, 听, 4, G]

6| [爱, 听, 4, G]

7| [愛, 聽, 4, G]

8| [喜欢, 4, G]

9| [hankcs, 在, 臺, 灣寫, 代, 碼]

10|

11| HanLP.Config.Normalization = True

12|

13| [爱听4g]

14| [爱听4g]

15| [爱听4g]

16| [爱听4g]

17| [爱听4g]

18| [喜欢, 4, g]

19 |[hankcs, 在, 台湾, 写, 代码]

20| 現在的HanLP已經新增了新增自定義詞典之後,自動刪除快取的功能,現在只需要開啟正則化即可

21| [现在, 的, hanlp, 已经, 新增, 了, 新增, 自定义, 词典, 之后, ,, 自动, 删除, 快, 取, 的, 功能, ,, 现在, 只, 需要, 开启, 正, 则, 化, 即可]

---------------------

作者:Font Tian

java 中文分词转拼音_pyhanlp 繁简转换之拼音转换与字符正则化相关推荐

  1. Java中文分词组件 - word分词(skycto JEEditor)

    转自:https://my.oschina.net/apdplat/blog/228619#OSC_h4_8 Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文 ...

  2. java中文分词的简单实现

    java中文分词的简单实现 中文分词 算法 算法思路 算法实现 代码及注释 评价 结语 中文分词 通俗来讲,中文分词是指将一句中文句子中的所有中文词汇相互分隔开来.它是文本挖掘的基础,有着十分广阔的应 ...

  3. 开源 Java 中文分词器 Ansj 作者孙健专访

    Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高. 在线演示: http://ansj.sdap ...

  4. java 中文分词转拼音_java 支持分词的高性能拼音转换工具, 速度是 pinyin4j 的两倍...

    java 支持分词的高性能拼音转换工具, 速度是 pinyin4j 的两倍 pinyin https://github.com/houbb/pinyin 是 java 实现的高性能中文拼音转换工具. ...

  5. java 中文分词转拼音_Java实现将汉字转化为汉语拼音的方法

    本文实例讲述了Java实现将汉字转化为汉语拼音的方法.分享给大家供大家参考,具体如下: 网上乱转,偶然看到一个很有意思的小工具,名字叫pinyin4j,可以把汉字转换为汉语拼音,利用他的话再配合上lu ...

  6. Jcseg是基于mmseg算法的一个轻量级Java中文分词器

    Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同 ...

  7. python中文文本分词_SnowNLP:?中文分词?词性标准?提取文本摘要,?提取文本关键词,?转换成拼音?繁体转简体的 处理中文文本的Python3 类库...

    SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和Te ...

  8. java jcseg 官网_Jcseg轻量级Java中文分词器2.6.5最新版

    Jcseg分词器官方版是一款简单且超级好用的轻量级Java分词工具,它可以帮助用户轻松提取关键词和关键词,并为Java的使用提供帮助,该软件还提供了一个基于Jetty的Web服务器,可以满足用户的各种 ...

  9. java中文分词算法_Java实现逆向最大匹配中文分词算法

    写道 //Java实现逆向最大匹配中文分词算法 public class SplitChineseCharacter { public static void main(String[] args) ...

最新文章

  1. 120种小狗图像傻傻分不清?用fastai训练一个分类器
  2. HDR 拍照模式的原理,实现及应用
  3. ros安装-Ubuntu14.04
  4. 【易网库】周年庆幸运大抽奖, 有机会获3年免费主机空间
  5. Vue项目开发目录结构和引用调用关系
  6. 创建 linux分区命令,Linux中创建分区
  7. DRD:线程错误检测器
  8. Python使用PyQT制作视频播放器
  9. 200个c语言程序(由简单到复杂),200个c语言程序(由简单到复杂)
  10. Android音视频从入门到提高---任务列表
  11. oracle日期函数大全
  12. 学会了,不会ps也能更换自己的证件照底色,制作自己的证件照
  13. (未解决)SpringMVC学习——为什么网址不是locahost而是desktop-nottqjs(如图)
  14. 大数据论文_02_MapReduce(个人总结)
  15. 为什么用python写爬虫_老猿为什么写Python爬虫教程
  16. linux fedora 10下载,Linux_Fedora 9官方最终稳定版下载地址集合,HTTP下载:http://mirror.karneval.cz/p - phpStudy...
  17. Python爬虫实战:QQ空间全自动点赞工具
  18. UCOSIII软件定时器
  19. 腰部减肥3个秘诀 腰围速减2cm
  20. 三国志战略版:Daniel_煮酒论赤壁-论水战

热门文章

  1. 非系统管理员打开Internet Information Services (IIS)管理器
  2. JQuery中$是什么?
  3. 了解适用于Android应用程序的本机,WebView和混合模板
  4. 超简单的_ps抠图_在线抠图工具_智能抠图_速抠图
  5. 怎么把html换成gif,怎么将mp4转换成gif 把mp4转换成高清gif的方法
  6. OpenI/O 2020 启智开发者大会!启智筑梦远航,千万激励奖金助力开发者“智”造更多新可能
  7. springboot 2.x升级后出现Spring Security – There is no PasswordEncoder mapped for the id “null”的解决方案
  8. PAC(Probably Approximately Correct,概率近似正确)
  9. SAP顾问生涯闲记:2016年越南鞋厂项目回忆
  10. ssm毕设项目医院预约挂号管理系统q9ig2(java+VUE+Mybatis+Maven+Mysql+sprnig)