最近一个项目中客户需要做人名的拼音检索,就像QQ好友那样,输入拼音就提示符合的联系人。上网找了一下,发现微软已经发布了相关的支持库,不仅可以处理拼音,还能处理笔画、简繁体转换等。csdn上有一篇博客介绍了基本的使用方法,微软发布的库也包含了比较全面的文档。但实际使用过程中发现了几个问题:

  1. 多音字的处理,当人名中含有多音字时,处理会变得相对复杂。
  2. 汉字拼音边界的处理,比如人名为“小明”,拼音为"XIAOMING",当输入"AOM"时,客户可能不希望看到“小明”这个结果。

本文分析第一个问题。此问题的目标是对于特定的字符串,生成其对应拼音列表。比如“重”有"CHONG2"、"ZHONG4"两个音,“量”有"LIANG2"、"LIANG4"、"LIANG5"三个音(5代表轻声)。最后生成的列表应该是"CHONGLIANG"、"ZHONGLIANG"。由于使用微软的国际化库ChineseChar类的Pinyins属性得到的事一个元素个数固定为8的ReadOnlyCollection<string>类型,其中元素包含读音,而且集合会包含null元素,所以必须先做一步处理,取得无音标的拼音。为ChineseChar添加一个扩展方法如下:


public static class ChineseCharExtension
{
    /// <summary>
    /// Get the distinct pinyins of a <see cref="ChineseChar"/> without the sound indicator.<para />
    /// The result strings are upper case.
    /// For example, "重" will get a result of "ZHONG" and "CHONG", 
    /// while "量" will only get "LIANG".
    /// </summary>
    /// <param name="chineseChar"></param>
    /// <returns></returns>
    public static IEnumerable<string> PinyinsWithoutSound (this ChineseChar chineseChar)
    {
        return chineseChar.Pinyins.Where (p => p != null).Select (p => p.Substring (0, p.Length - 1)).Distinct ();
    }
}

然后是取得整个字符串的拼音组合,这本质上就是个回溯算法,我用了递归来实现,为了方便使用,直接做成了string的扩展方法。


public static class ChineseString
{
    /// <summary>
    /// Get pinyins of a string containing chinese characters.
    /// </summary>
    /// <param name="chinese">The input string.</param>
    /// <returns>The pinyin combinations.</returns>
    public static IEnumerable<string> GetPinyins (this string chinese)
    {
        Char[] chineseChars = chinese.ToCharArray ();

return chineseChars.GetPinyins (0);
    }

private static IEnumerable<string> GetPinyins (this char[] chinese, int startIndex)
    {
        //If the start index is beyond the string length, just yield return an empty string.
        if (startIndex == chinese.Length)
        {
            yield return string.Empty;
        }
        else
        {
            //If this char is a chinese char.
            if (ChineseChar.IsValidChar (chinese[startIndex]))
            {
                foreach (var charPinyin in (new ChineseChar (chinese[startIndex])).PinyinsWithoutSound ())
                {
                    foreach (var remainingPinyins in chinese.GetPinyins (startIndex + 1))
                    {
                        yield return charPinyin + remainingPinyins;
                    }
                }
            }
            else
            {
                //Is not chinese, just concat it with the remaining pinyins.
                foreach (var remainingPinyins in chinese.GetPinyins (startIndex + 1))
                {
                    yield return chinese[startIndex] + remainingPinyins;
                }
            }
        }
    }
}

这样,要判断用户输入的字符串是不是中文字符串"name"的拼音的一部分,只要用

name.GetPinyins().Any(p => p.ToUpper ().Contains (inputStr.ToUpper ()))

就行了。

Microsoft Visual Studio International Pack 下载地址:http://www.microsoft.com/downloads/details.aspx?FamilyID=44cac7f0-633b-477d-aed2-99aee642fc10&DisplayLang=zh-cn

注意下面有个2.0的下载,但那个只是个Feature Pack,主要功能还在1.0中。

使用Microsoft Visual Studio International Pack获得中文字符串的所有拼音组合(处理多音字)相关推荐

  1. 使用Microsoft Visual Studio International Pack获得中文字符串的所有拼音组合(处理多音字)...

    最近一个项目中客户需要做人名的拼音检索,就像QQ好友那样,输入拼音就提示符合的联系人.上网找了一下,发现微软已经发布了相关的支持库,不仅可以处理拼音,还能处理笔画.简繁体转换等.csdn上有一篇博客介 ...

  2. Microsoft Visual Studio International Pack 1.0 处理汉字、拼音、笔画转换

    (已经安装解压后的dll ,请添加至项目bin下) http://files.cnblogs.com/Fooo/Microsoft_Visual_Studio_International_Pack_1 ...

  3. Microsoft Visual Studio International Pack 1.0 Beta1 处理汉字、拼音、笔画转换

    /**//*     微软刚刚推出     Microsoft Visual Studio International Pack 1.0 Beta1     支持 汉字 拼音 笔画 转换     ht ...

  4. C# 处理汉字、拼音、笔画转换 Microsoft Visual Studio International Pack 1.0

    (已经安装解压后的dll ,请添加至项目bin下) http://files.cnblogs.com/Fooo/Microsoft_Visual_Studio_International_Pack_1 ...

  5. Microsoft Visual Studio International Pack 1.0

    下载地址: http://www.microsoft.com/downloads/details.aspx?displaylang=zh-cn&FamilyID=f9cfc884-1f00-4 ...

  6. Microsoft Visual Studio International Pack

    Visual Studio International Pack 包含一组类库,该类库扩展了.NET Framework对全球化软件开发的支持.使用该类库提供的类,.NET 开发人员可以更方便的创建支 ...

  7. 微软提供对汉语拼音的强大升级支持--Microsoft Visual Studio International Pack 1.0 SR1

    下载地址: http://www.microsoft.com/downloads/details.aspx?FamilyID=44CAC7F0-633B-477D-AED2-99AEE642FC10& ...

  8. C# 使用微软的Visual Studio International Pack 类库提取汉字拼音首字母

    昨天经过网友提醒,提取汉字拼音的方法可以使用微软的一个类库 Visual Studio International Pack ,今天试了一试,确实好用!下面分享下使用方法: 首先下载Visual St ...

  9. [C#][转载]C# 使用微软的Visual Studio International Pack 类库提取汉字拼音首字母

    昨天经过网友提醒,提取汉字拼音的方法可以使用微软的一个类库 Visual Studio International Pack ,今天试了一试,确实好用!下面分享下使用方法: 首先下载Visual St ...

最新文章

  1. 台湾高校首创气体灭火数位实境教育馆
  2. Springboot注册Listener
  3. 前端和后端哪个工资高_嵌入式软硬件工程师哪个更有前途,工资还高
  4. Python 面向对象编程(进阶部分)
  5. java调用siri 语言_如何更改Siri的声音,口音,性别和语言
  6. 电商系统的商品规格设计方案
  7. mysql使用jtable_jtable 的简单使用
  8. 第00次博文——我对Python的期待与思考
  9. AbleCloud与物联智慧战略合作,联合服务视频类智能硬件
  10. java remote debug parameters
  11. IDEA取消双击shift出现的搜索框
  12. 获取网络时间(国家标准时间)
  13. 小米真蓝牙耳机说明书_小米真无线蓝牙耳机Air拆解:399元值了
  14. 最新版2020.11版本Anaconda百度网盘提取下载
  15. 网页设计常用色彩搭配表 - 配色表
  16. 2020最新天猫双十一自动获取喵币
  17. 为什么亿万资产的投资者依旧对加密货币长期走势持乐观态度?
  18. 51定时中断系统控制LED点阵屏显示逐帧动画
  19. 记自己发现的—SM2国密算法应用的高危漏洞—CVE-2021-3711
  20. 【熬夜猛肝万字博文】学妹问我怎么入门 Javascript,百般盘问下我终于决定贡献出自己的 JavaScript入门笔记(四)

热门文章

  1. 超实用的IDEA插件推荐,百万级下载量
  2. 正规理财app软件有哪些?top5资质正规理财app软件最新排名
  3. 用react-resizable插件来拖动改变ant-ui表格的列宽
  4. 那些年我们写过的雷人简历
  5. Docker仓库管理镜像 -- 公共仓库【Docker Hub】和私人仓库【Registry】和【harbor】
  6. 批量处理DataFrame行数据(pandas)
  7. Docker-搭建私有仓库
  8. beta冲刺6-咸鱼
  9. [Python]通过网易财经接口获取股票和指数的历史数据
  10. 商机网海量资源,帮助企业高效采购