提高输入法的效率主要在于两方面:

  1. 输入汉字的平均击键次数接近理论上的最小值
  2. 寻找一个键的时间不要太长

1. 输入法与编码

讨论了全拼输入法对比于双拼输入法的优势,主要在于双拼输入法有更多的歧义性,虽然可以减少平均击键次数,但是用户难以记忆,因此现在全拼输入法已经占据了大部分的市场。

2. 输入一个汉字需要敲多少次键—谈谈香农第一定理

在GB2312简体中文字符集中一共有6700多个常用汉字,为了节省存储空间,因此通常是会采用不定长编码。
根据哈夫曼树的方法,对于常用的汉字采用短编码,不常用的汉字采用长编码,这样就可以缩短每个汉字的编码长度。

假设每一个汉字出现的相对频率是

它们的编码长度是

那么,平均编码长度就是

香农第一定理指出:对于一个信息,任何编码的长度都不小于它的信息熵。
因此,上面的平均编码长度的最小值就是汉字的信息熵。

3. 拼音转汉字的算法

拼音转汉字的算法,其实可以看成一个动态规划的问题,自底向上的过程。

如下图拼音到汉字的转换过程

其中,y1,y2,y3,…,yN是使用者输入的拼音串;w11,w12,w13是第一个音y1的候选汉字,以此类推。

可见,从第一个汉字到最后一个汉字有很多种组合的可能。拼音输入法需要根据上下文给定拼音查找下的最优句子,即

利用贝叶斯公式和隐马尔可夫模型可以对公式进行简化,得到

然后对公式21.6取对数,乘法就会变成加法,就变成了类似于寻找最短路径的问题了。

4. 延伸阅读:个性化的语言模型

这节主要讲的是不同的用户可能会适用于不同的语言模型,因此如何训练一个个性化的语言模型。但是,在一些特殊情况下,通用的语言模型又会起到更好的效果。因此如何让他们进行更好的结合。

对于用户特定的语言模型的训练步骤如下:

对于个性化模型和通用模型的结合,通常时会使用线性差值模型
假定M0和M1都是二元模型,它们计算出的(wi-1,wi)的条件概率分别是P0(wi|wi-1)和P1(wi|wi-1)。新的模型为M’,条件概率应该是

其中0<λ(wi-1)<1是一个插值参数。显然这是一个更好的模型。

《数学之美》第二十一章——拼音输入法的数学原理相关推荐

  1. 《数学之美》第21章 拼音输入法的数学原理

    1 输入法和编码 将一个方块形状的汉字输入到计算机中,本质上是一个将人为约定的信息记录编码--汉字,转换成计算机约定的编码(国际码或者UTF-8)的信息转换过程. 对汉字的编码分为两部分:对拼音的编码 ...

  2. ​ 每周一书《数学之美 第二版》分享!

    内容简介 几年前,"数学之美"系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价.读者说,读了"数学之美",才发现大学时学的数学知识,比如马尔可夫链 ...

  3. 《数学之美》选章精读

    曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫 概念 图论起 ...

  4. 拼音输入法的数学原理

    拼音输入法的数学原理 声明:引用请注明出处http://blog.csdn.net/lg1259156776/ 引言 过去的25年里,中文输入法经历从自然音节编码输入,到偏旁笔画拆字输入,再回归自然音 ...

  5. 数学之美 第3章 统计语言模型

    数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...

  6. 计算机网络离不开光缆,九年级物理全册 第二十一章 第四节 越来越宽的信息之路习题课件 新人教版.ppt...

    九年级物理全册 第二十一章 第四节 越来越宽的信息之路习题课件 新人教版.ppt 第二十一章信息的传递,第四节越来越宽的信息之路,1微波的性质更接近光波,大致沿_______传播,需要每隔_____k ...

  7. 羊皮卷的实践-第二十一章

    第二十一章 高山滑雪是人与环境以及时间的竞赛.每当我看到输赢之间只差极短的时间时,我就不禁摇头同情那些输家. 第一名的时间是一分三十七秒二二. 第二名的时间是一分二十七秒二五. 也就是说,冠军与平庸之 ...

  8. 鸟哥的Linux私房菜(服务器)- 第二十一章、文件服务器之三: FTP 服务器

    第二十一章.文件服务器之三: FTP 服务器 最近更新日期:2011/08/08 FTP (File Transfer Protocol) 可说是最古老的协议之一了,主要是用来进行档案的传输,尤其是大 ...

  9. 数字图像处理:第二十一章 视频压缩标准

    第二十一章视频压缩标准 目录 引言 H.261标准 MPEG-1标准 MPEG-2标准 MPEG-4标准 MPEG-7标准 作业 1. 引言 视频压缩标准是多媒体领域中的重要内容,针对视频会议.网络通 ...

最新文章

  1. 安装sqoop1.4.6-cdh5.5.2
  2. 解决虚拟机vmware安装64位系统“此主机支持 Intel VT-x,但 Intel VT-x 处于禁用状态”的问题
  3. linux redhat5下安装oracle10g
  4. 谷歌为何要大力投资生命科学初创公司?
  5. 云原生网络代理(MOSN)的进化之路
  6. java arraylist与数组转换_java中String,数组,ArrayList三者之间的转换
  7. Gradle - 编译报org.jetbrains.plugins.gradle.tooling.util.ModuleComponentIdentifierIm的问题解决
  8. 自动化接口用例从 1 到 1000 过程中的实践和思考
  9. 【回归预测】基于matlab Logistic混沌映射改进的麻雀搜索算法优化BP神经网络回归预测【含Matlab源码 1552期】
  10. 自学移动端(APP)自动化测试
  11. python水仙花数_python求解水仙花数的方法
  12. vs2010解决方案源文件夹和头文件夹消失
  13. 手机屏幕什么计算机,手机屏幕和电脑屏幕的区别
  14. win10桌面不见了如何找到
  15. 开源项目9GAG源码解析与Material改造(一)
  16. 通过谷歌Google轻松拥有自己的站内搜索代码
  17. 地理坐标系:WGS84和BD09互转
  18. 连连看修改(golang)
  19. nvm alias default [版本]不生效解决办法
  20. java 获取图片像素_转:java提取图片中的像素

热门文章

  1. 程序如何在RAM ROM运行,内存分配与分区
  2. PADS VX2.7学习记录04-PADS Layout软件操作
  3. 计算搭积木是否能拼接成一个整体
  4. DDD为什么能火起来?DDD 与微服务到底是啥关系!
  5. 量子力学 or 线性代数?(五:波函数与薛定谔方程)
  6. IAR环境 HandFault定位
  7. 低通,高通,带通,带阻滤波器
  8. python和netlogo软件模拟病毒传播仿真模型(一)
  9. spring boot 有哪些方式可以实现热部署?
  10. Firefox Crash后session内容的恢复