《数学之美》第二十一章——拼音输入法的数学原理
提高输入法的效率主要在于两方面:
- 输入汉字的平均击键次数接近理论上的最小值
- 寻找一个键的时间不要太长
1. 输入法与编码
讨论了全拼输入法对比于双拼输入法的优势,主要在于双拼输入法有更多的歧义性,虽然可以减少平均击键次数,但是用户难以记忆,因此现在全拼输入法已经占据了大部分的市场。
2. 输入一个汉字需要敲多少次键—谈谈香农第一定理
在GB2312简体中文字符集中一共有6700多个常用汉字,为了节省存储空间,因此通常是会采用不定长编码。
根据哈夫曼树的方法,对于常用的汉字采用短编码,不常用的汉字采用长编码,这样就可以缩短每个汉字的编码长度。
假设每一个汉字出现的相对频率是
它们的编码长度是
那么,平均编码长度就是
香农第一定理指出:对于一个信息,任何编码的长度都不小于它的信息熵。
因此,上面的平均编码长度的最小值就是汉字的信息熵。
3. 拼音转汉字的算法
拼音转汉字的算法,其实可以看成一个动态规划的问题,自底向上的过程。
如下图拼音到汉字的转换过程
其中,y1,y2,y3,…,yN是使用者输入的拼音串;w11,w12,w13是第一个音y1的候选汉字,以此类推。
可见,从第一个汉字到最后一个汉字有很多种组合的可能。拼音输入法需要根据上下文给定拼音查找下的最优句子,即
利用贝叶斯公式和隐马尔可夫模型可以对公式进行简化,得到
然后对公式21.6取对数,乘法就会变成加法,就变成了类似于寻找最短路径的问题了。
4. 延伸阅读:个性化的语言模型
这节主要讲的是不同的用户可能会适用于不同的语言模型,因此如何训练一个个性化的语言模型。但是,在一些特殊情况下,通用的语言模型又会起到更好的效果。因此如何让他们进行更好的结合。
对于用户特定的语言模型的训练步骤如下:
对于个性化模型和通用模型的结合,通常时会使用线性差值模型。
假定M0和M1都是二元模型,它们计算出的(wi-1,wi)的条件概率分别是P0(wi|wi-1)和P1(wi|wi-1)。新的模型为M’,条件概率应该是
其中0<λ(wi-1)<1是一个插值参数。显然这是一个更好的模型。
《数学之美》第二十一章——拼音输入法的数学原理相关推荐
- 《数学之美》第21章 拼音输入法的数学原理
1 输入法和编码 将一个方块形状的汉字输入到计算机中,本质上是一个将人为约定的信息记录编码--汉字,转换成计算机约定的编码(国际码或者UTF-8)的信息转换过程. 对汉字的编码分为两部分:对拼音的编码 ...
- 每周一书《数学之美 第二版》分享!
内容简介 几年前,"数学之美"系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价.读者说,读了"数学之美",才发现大学时学的数学知识,比如马尔可夫链 ...
- 《数学之美》选章精读
曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫 概念 图论起 ...
- 拼音输入法的数学原理
拼音输入法的数学原理 声明:引用请注明出处http://blog.csdn.net/lg1259156776/ 引言 过去的25年里,中文输入法经历从自然音节编码输入,到偏旁笔画拆字输入,再回归自然音 ...
- 数学之美 第3章 统计语言模型
数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...
- 计算机网络离不开光缆,九年级物理全册 第二十一章 第四节 越来越宽的信息之路习题课件 新人教版.ppt...
九年级物理全册 第二十一章 第四节 越来越宽的信息之路习题课件 新人教版.ppt 第二十一章信息的传递,第四节越来越宽的信息之路,1微波的性质更接近光波,大致沿_______传播,需要每隔_____k ...
- 羊皮卷的实践-第二十一章
第二十一章 高山滑雪是人与环境以及时间的竞赛.每当我看到输赢之间只差极短的时间时,我就不禁摇头同情那些输家. 第一名的时间是一分三十七秒二二. 第二名的时间是一分二十七秒二五. 也就是说,冠军与平庸之 ...
- 鸟哥的Linux私房菜(服务器)- 第二十一章、文件服务器之三: FTP 服务器
第二十一章.文件服务器之三: FTP 服务器 最近更新日期:2011/08/08 FTP (File Transfer Protocol) 可说是最古老的协议之一了,主要是用来进行档案的传输,尤其是大 ...
- 数字图像处理:第二十一章 视频压缩标准
第二十一章视频压缩标准 目录 引言 H.261标准 MPEG-1标准 MPEG-2标准 MPEG-4标准 MPEG-7标准 作业 1. 引言 视频压缩标准是多媒体领域中的重要内容,针对视频会议.网络通 ...
最新文章
- 安装sqoop1.4.6-cdh5.5.2
- 解决虚拟机vmware安装64位系统“此主机支持 Intel VT-x,但 Intel VT-x 处于禁用状态”的问题
- linux redhat5下安装oracle10g
- 谷歌为何要大力投资生命科学初创公司?
- 云原生网络代理(MOSN)的进化之路
- java arraylist与数组转换_java中String,数组,ArrayList三者之间的转换
- Gradle - 编译报org.jetbrains.plugins.gradle.tooling.util.ModuleComponentIdentifierIm的问题解决
- 自动化接口用例从 1 到 1000 过程中的实践和思考
- 【回归预测】基于matlab Logistic混沌映射改进的麻雀搜索算法优化BP神经网络回归预测【含Matlab源码 1552期】
- 自学移动端(APP)自动化测试
- python水仙花数_python求解水仙花数的方法
- vs2010解决方案源文件夹和头文件夹消失
- 手机屏幕什么计算机,手机屏幕和电脑屏幕的区别
- win10桌面不见了如何找到
- 开源项目9GAG源码解析与Material改造(一)
- 通过谷歌Google轻松拥有自己的站内搜索代码
- 地理坐标系:WGS84和BD09互转
- 连连看修改(golang)
- nvm alias default [版本]不生效解决办法
- java 获取图片像素_转:java提取图片中的像素