java 中文分词转拼音_Java实现将汉字转化为汉语拼音的方法
本文实例讲述了Java实现将汉字转化为汉语拼音的方法。分享给大家供大家参考,具体如下:
网上乱转,偶然看到一个很有意思的小工具,名字叫pinyin4j,可以把汉字转换为汉语拼音,利用他的话再配合上lucene、中文分词就可以做出类似google那种输入汉语拼音进行全文检索的功能了。实现的代码如下
package pinyin4j;
import net.sourceforge.pinyin4j.PinyinHelper;
import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType;
import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;
import net.sourceforge.pinyin4j.format.HanyuPinyinToneType;
import net.sourceforge.pinyin4j.format.HanyuPinyinVCharType;
import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination;
public class pinyin4jTest {
public static void main(String argsp[]) {
try {
String output = pinyin4jTest.CNToPinyin("你和你好", null);
System.out.println(output);
} catch (BadHanyuPinyinOutputFormatCombination e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
/**
* @parm inputCN 输入的中文字符串
* @parm seg 输出汉语拼音时的分隔符
*
* HanyuPinyinOutputFormat提供了几种输出模式
* HanyuPinyinCaseType:设定输入的结果是大写英文还是小写英文 LOWERCASE :小写 UPPERCASE :大写
* HanyuPinyinToneType:输出是否表明音调和重音 WITH_TONE_NUMBER:标明音调 如YE1 1-4表示 1-4声
* WITHOUT_TONE:不显示音调符 HanyuPinyinVCharType :输出要用何种的拼音编码
*/
public static String CNToPinyin(String inputCN, String seg)
throws BadHanyuPinyinOutputFormatCombination {
char[] inputArray = inputCN.toCharArray();
if (seg == null)
seg = " ";
HanyuPinyinOutputFormat format = new HanyuPinyinOutputFormat();
format.setCaseType(HanyuPinyinCaseType.LOWERCASE);
format.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
format.setVCharType(HanyuPinyinVCharType.WITH_V);
String output = "";
String[] temp = new String[10];
for (int i = 0; i < inputArray.length; i++) {
temp = PinyinHelper.toHanyuPinyinStringArray(inputArray[i], format);
//若输入的汉字为多音字则会将不同的读音依次放入temp[]中,若不是多音字则只有temp[0]中有值
for (int j = 0; j < temp.length; j++) {
output += temp[j] + seg;
}
}
return output;
}
}
希望本文所述对大家Java程序设计有所帮助。
java 中文分词转拼音_Java实现将汉字转化为汉语拼音的方法相关推荐
- java 中文分词转拼音_java 支持分词的高性能拼音转换工具, 速度是 pinyin4j 的两倍...
java 支持分词的高性能拼音转换工具, 速度是 pinyin4j 的两倍 pinyin https://github.com/houbb/pinyin 是 java 实现的高性能中文拼音转换工具. ...
- java 中文分词转拼音_pyhanlp 繁简转换之拼音转换与字符正则化
繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合.这里我们不再做过多描述. ·说明 · Han ...
- Java中文分词组件 - word分词(skycto JEEditor)
转自:https://my.oschina.net/apdplat/blog/228619#OSC_h4_8 Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文 ...
- java中文分词的简单实现
java中文分词的简单实现 中文分词 算法 算法思路 算法实现 代码及注释 评价 结语 中文分词 通俗来讲,中文分词是指将一句中文句子中的所有中文词汇相互分隔开来.它是文本挖掘的基础,有着十分广阔的应 ...
- 开源 Java 中文分词器 Ansj 作者孙健专访
Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高. 在线演示: http://ansj.sdap ...
- java分词支持拼音_java 支持分词的高性能拼音转换工具,速度是 pinyin4j 的两倍...
pinyin pinyin 是 java 实现的高性能中文拼音转换工具. 创作目的 想为 java 设计一款便捷易用的拼音工具. 特性 极简的 api 设计 支持转换长文本 支持多音字 支持多种拼音标 ...
- java分词支持拼音_java 支持分词的高性能拼音转换工具,速度是 pinyin4j
pinyin pinyin 是 java 实现的高性能中文拼音转换工具. 创作目的 想为 java 设计一款便捷易用的拼音工具. 特性 极简的 api 设计 支持转换长文本 支持多音字 支持多种拼音标 ...
- java中文分词算法_Java实现逆向最大匹配中文分词算法
写道 //Java实现逆向最大匹配中文分词算法 public class SplitChineseCharacter { public static void main(String[] args) ...
- java jcseg 官网_Jcseg轻量级Java中文分词器2.6.5最新版
Jcseg分词器官方版是一款简单且超级好用的轻量级Java分词工具,它可以帮助用户轻松提取关键词和关键词,并为Java的使用提供帮助,该软件还提供了一个基于Jetty的Web服务器,可以满足用户的各种 ...
最新文章
- 第一篇 webApp启航
- 大话设计模式读后感之面向对象设计基础
- 探索 OpenStack 之(10):深入镜像服务Glance
- shiro中文api_Shiro
- 【C语言】C语言学习整理-putchar,printf,getchar,scanf定义及区别
- 新的 HTML5 文档类型和字符集是,前端面试题--HTML5+CSS3(1)
- Struts与Ajax页面交互
- SDL_BlitSurface的参数是两个PNG时,如何保护其透明度
- access 江苏计算机二级_计算机二级考试都要考些什么?
- QListView的使用
- LOAP引擎:clickhouse02: 引擎及sql语法
- Egret引擎游戏内存优化指南
- c++面试常见问题总结
- 《东周列国志》第四十三回 智宁俞假鸩复卫 老烛武缒城说秦
- C++ 使用Poco库实现日志操作
- tensorflow官网
- 《广播电视节目制作经营许可证》申请流程
- 唐伯虎的诗,可能是改编的
- 台式计算机win如何联网,Win10台式机怎么连接无线网(wifi)?
- java 训练智能辅助系统
热门文章
- CV:阿里在CV数据增强领域带来SOTA新范式(已被NeurIPS2022接收)—基于离散化对抗训练的鲁棒视觉新基准!
- 如何解决模具折弯尺寸不稳定?
- 华为软开云2--玩转代码托管
- 首届青年统计学家论坛 | 小微金融与个人征信专场
- Linux访问群晖NAS共享文件夹
- Repeater控件动态变更列(Header,Item和Foot)信息
- redit mysql_如何搭建自己的网站?
- 【前端面试题】2021秋招+金九银十,看完这些就够了 最新前端面试总结 68道前端面试题,助你进大厂
- Objective-C runtime机制(5)——iOS 内存管理
- 2022开源社区app源码多端圈子社区论坛系统