Java(汉字/拼音/简繁)转换, 文字分割, 关键字提取, 人名, 音译, 地名识别等等
查看原文:http://www.ibloger.net/article/34.html
pinyin4j
首先下载pinyin4j-2.5.0包,http://pinyin4j.sourceforge.net/
Pinyin4j是一种流行的Java库,支持中国的文字和最流行的拼音系统之间的皈依。拼音输出格式可以定制。
Pinyin4j发表至今,已经下载了55000次,每星期仍couting200+!
参考网友文献:http://www.open-open.com/lib/view/open1392087364364.html
http://wister.iteye.com/blog/334562
http://blog.csdn.net/ssrc0604hx/article/details/41725355
http://blog.csdn.net/foamflower/article/details/6209552
HanLP
拼音声母韵母转换提取.png最近HanLP希望支持拼音与繁体功能,所以学习了几个开源的Java实现,优化后集成进来。
下载地址:hanlp-portable-1.1.5.jar
文档:http://hanlp.linrunsoft.com/doc/_build/html/util.html
开源项目地址:https://github.com/hankcs/HanLP
HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
HanLP提供下列功能:
- 中文分词
- 最短路分词
- N-最短路分词
- CRF分词
- 索引分词
- 极速词典分词
- 用户自定义词典
- 词性标注
- 命名实体识别
- 中国人名识别
- 音译人名识别
- 日本人名识别
- 地名识别
- 实体机构名识别
- 关键词提取
- TextRank关键词提取
- 自动摘要
- TextRank自动摘要
- 短语提取
- 基于互信息和左右信息熵的短语提取
- 拼音转换
- 多音字
- 声母
- 韵母
- 声调
- 简繁转换
- 繁体中文分词
- 简繁分歧词
- 文本推荐
- 语义推荐
- 拼音推荐
- 字词推荐
- 依存句法分析
- 基于神经网络的高性能依存句法分析器
- MaxEnt依存句法分析
- CRF依存句法分析
- 语料库工具
- 分词语料预处理
- 词频词性词典制作
- BiGram统计
- 词共现统计
- CoNLL语料预处理
- CoNLL UA/LA/DA评测工具
在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料。
参考大牛文献:http://www.hankcs.com/nlp/java-chinese-characters-to-pinyin-and-simplified-conversion-realization.html
https://github.com/hankcs/HanLP
Java(汉字/拼音/简繁)转换, 文字分割, 关键字提取, 人名, 音译, 地名识别等等相关推荐
- NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→拼音简繁转换→情感分析→测试)
NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→拼音&简繁转换→情感分析→测试) 目录 NLP分词 NLP词性标注 NLP情感分析-TEA NLP常 ...
- Elasticsearch高级搜索排序( 中文+拼音+首字母+简繁转换+特殊符号过滤)(示例代码)
简介 这篇文章主要介绍了Elasticsearch高级搜索排序( 中文+拼音+首字母+简繁转换+特殊符号过滤)(示例代码)以及相关的经验技巧,文章约21106字,浏览量320,点赞数5,值得参考! ...
- querybuilder 排序_Elasticsearch高级搜索排序( 中文+拼音+首字母+简繁转换+特殊符号过滤)...
一.先摆需求: 1.中文搜索.英文搜索.中英混搜 如:"南京东路","cafe 南京东路店" 2.全拼搜索.首字母搜索.中文+全拼.中文+首字母混搜 如 ...
- elasticsearch 6.2.2 搜索推荐系列(三)之高级搜索查询实现( 中文+拼音+首字母+简繁转换+特殊符号过滤)
一.先摆需求: 1.中文搜索.英文搜索.中英混搜 如:"南京东路","cafe 南京东路店" 2.全拼搜索.首字母搜索.中文+全拼.中文+首字母混搜 如 ...
- java utf8 简繁转换 类库_在Java中进行中文繁体简体转换,基于OpenCC(Open Chinese Convert)方案...
一.OpenCC介绍 OpenCC (Open Chinese Convert,开放中文转换) 是一个用于中文简繁转换的开源项目,支持词汇级别的转换.异体字转换和地区习惯用词转换(中国大陆.台湾.香港 ...
- 利用 OpenCC 工具进行文字的简繁转换
前言 近日在公司遇到一个需求,因为准备要推出海外版产品,所以需要将所有的简体文字转换为繁体文字.一开始是改了表面的文字,但是后面发现很多提示语也需要去改,所以找了一个工具去对所有 .m 文件进行批量文 ...
- java utf8 简繁转换 类库_JAVA简繁转换(对象)解决办法
JAVA简繁转换(对象) 目前已实现普通字符串的转换代码如下: static String jtPy = "简体字库"; static String ftPy = "繁體 ...
- .net core 拼音转换,简繁转换,数字读法,货币读法
一.新建项目:ChineseConvertDemo <ItemGroup><PackageReference Include="Chinese" Version= ...
- php网页文字,PHP语言之网页文字简繁转换函数
本文主要向大家介绍了PHP语言之网页文字简繁转换函数,通过具体的内容向大家展示,希望对大家学习php语言有所帮助. function isgb($code) { if (strlen($code)&g ...
- 汉语言处理工具pyhanlp的简繁转换
繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合.这里我们不再做过多描述. 说明: ·HanL ...
最新文章
- java回顾之继承 二
- 线性稀疏自编码机_特征工程之特征缩放amp;特征编码
- java有效索引范围_java – 索引范围的上限始终假定为独占?
- 直接裂开!京东二面被问SpringBoot整合MongoDB,我不会啊
- 如何通过Maven的Tomcat插件运行Web工程
- jdk jenkins 配置ant_Jenkins流水线实践课程
- SQLAlchemy 基础知识 - (autoflush 和 autocommit)(relationship 和 backref)(flask migrate迁移数据)
- 44. Element insertBefore() 方法
- python实现50行代码_利用 50行Python 代码构建一个在线文本生成器!
- EasyPay移动支付框架
- 外贸报价后如何跟进客户?winseeing可快速报价展示样品
- 维多利亚计算机研究生,2020年惠灵顿维多利亚大学计算机信息硕士申请条件
- 美团3年阿里4年,我的坎坷进阶之路
- 条形码识别(3)——译码
- uniapp 截图或者生成海报
- 今天没有带U盘,把代码拷到网上再回家贴
- 五子棋Pro-最好玩的五子棋游戏
- PTA 5 动物发声模拟器(多态)分数 10
- .NET 7 预览版 7
- Week20 20190708
热门文章
- myeclipse6.5-8.5 激活码 秘钥 及使用
- MathType如何编辑大三角形符号
- Unity3d报错及解决办法总结
- qq音乐for linux,[Linux] QQ音乐官方上线 For Linux V1.0.5-1 [2020.12.2]
- 无数次踩坑安装AWVS
- matlab分布函数逆函数,正态分布函数的反函数求导 matlab
- linux date 4 2,JZ2440 linux-3.4.2内核启动报错:Verifying Checksum ... Bad Data CRC(示例代码)...
- 国内镜像源的使用,提高下载速度
- 对数用计算机,如何使用计算器计算对数
- 给大家爆个秘密:怎样迅速提高你的校内人人网人气