1 输入法和编码

将一个方块形状的汉字输入到计算机中,本质上是一个将人为约定的信息记录编码--汉字,转换成计算机约定的编码(国际码或者UTF-8)的信息转换过程。

对汉字的编码分为两部分:对拼音的编码和消除歧义的编码。

拼音输入法,而且是每个汉字编码较长的全拼输入法。优点:

1. 它不需要专门学习。

2. 输入自然,不会中断思维,也就是说找每个键的时间非常短。

3. 因为编码长,有信息冗余。容错性好。

2 输入一个汉子需要敲多少个键--谈谈香农第一原理

香农第一定理指出,对于一个信息,任何编码的长度都不小于它的信息熵。

利用上下文最好的办法是借助语言模型。只要承认概率论,就无法否认语言模型可以保证拼音转汉字(解决一音多字的问题)的效果最好。

目前,各家拼音输入法基本处在同一个量级,将来技术上进一步提升的关键就在于看谁能准确而有效地建立语言模型。

3 拼音转汉子的算法

拼音转汉字的算法和在导航中寻找最短路径的算法相同,都是动态规划。

拼音输入法就是要根据上下文在给定拼音条件下找到最优的句子,即

数学的妙处在于它的每一个工具有相当的普遍性,在不同的应用中都可以发挥很大的作用。

4 个性化的语言模型

个性化的出发点是不同人平时写的东西主题不同,由于文化程度的差异,用词习惯不同,说话和写作的水平也不相同,因此,他们各自应该有各自的语言模型。

训练用户特定的语言模型的整个步骤如下:

1. 将训练语言模型的文本按照主题分成很多不同的类别,比如1000个,C1,C2,...,C1000

2. 对于每个类,找到他们的特征向量(TF-IDF)X1,X2,...,X1000

3. 统计某个人输入的文本,得到他输入的词的特征向量Y

4. 计算Y和X1,X2,...,X1000的余弦

5. 选择前K个和Y距离最近的类对应的文本,作为这个特定用户语言模型的训练数据

6. 训练一个用户特定的语言模型M

《数学之美》第21章 拼音输入法的数学原理相关推荐

  1. 《数学之美》第二十一章——拼音输入法的数学原理

    提高输入法的效率主要在于两方面: 输入汉字的平均击键次数接近理论上的最小值 寻找一个键的时间不要太长 1. 输入法与编码 讨论了全拼输入法对比于双拼输入法的优势,主要在于双拼输入法有更多的歧义性,虽然 ...

  2. 拼音输入法的数学原理

    拼音输入法的数学原理 声明:引用请注明出处http://blog.csdn.net/lg1259156776/ 引言 过去的25年里,中文输入法经历从自然音节编码输入,到偏旁笔画拆字输入,再回归自然音 ...

  3. 数学之美 第3章 统计语言模型

    数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...

  4. java 对数取反_数学之美读书笔记-拼音输入法的数学原理

    从理论上分析,输入汉字到底能有多快?这里需要用到信息论中的香农第一定理.假定在国标GB2312里面,一共有6700多个常用的汉字.如果不考虑汉字频率的分布,用键盘上的26个字母对汉字进行编码,两个字母 ...

  5. 数学之美:拼音输入法的数学原理

    现代输入法大多首选拼音输入法,其原因便是拼音符合人的认知规律,尽管需要多输入几个字母,但速度并不慢.它不需要专门去学习,输入时不用中断思维去考虑,而且对于前后鼻音具有很好的冗余性. 而拼音转汉字的算法 ...

  6. 《数学之美》选章精读

    曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫 概念 图论起 ...

  7. 《数学之美》——第九章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第九章    图 ...

  8. 《数学之美》——第一章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第一章    文 ...

  9. 数学之美与新生寄语(致复旦大学数学学院2016级新生)

    首先,欢迎2016级的同学进入数学学院和复旦学院志德书院开始大学阶段的学习和生活! 说起数学,相信大家不会陌生,因为从小学至今已学了12年的数学.如果把数学比喻成一座雄伟的高山,把数学学习比喻成登山, ...

最新文章

  1. Java多线程之线程并发库原子性操作类
  2. 信息安全系统设计基础第十五周总结
  3. JBoss-4.2.3.GA下发布EJB3项目遇到的问题之JSF篇
  4. Cesium:修改点击显示的infoBox内容
  5. Lingo基础语法笔记
  6. 基于JSP和sql server小区物业管理系统毕业论文
  7. Julia实现重心法(单设施选址问题)
  8. (一) JAVA Swing:Swing快捷开发工具集-v0.01
  9. 英语听力采用计算机化考试,一图读懂北京高考英语听力机考流程,附特点及应对建议...
  10. 黄金搭档:老虎+猫头鹰+孔雀+考拉
  11. 百度地图设置显示中心点
  12. 网络安全和黑客技能:15本必读书籍推荐
  13. sql日期时间相减语句
  14. 何时是PNE(纯策略纳什均衡)?何时是MNE(混合策略纳什均衡)?
  15. 传奇私服服务器怎么增加npc,在自己的传奇服务器中如何添加NPC
  16. linux中的21是什么
  17. 某不知名工控机装系统尝试
  18. 《设计模式之禅》-建造者模式
  19. 使用Opencv实现魔方识别(一):边缘及位置识别
  20. (全栈旅行足迹地图打卡网站 0-1)-旅行足迹文章记录(项目完结)-15(WebGIS Vue-js-go-mysql)

热门文章

  1. .bat脚本自动yes_推荐|PyToBI自动标注韵律
  2. 考研成绩查询系统(jsp、mysql、java)
  3. Yann LeCun 最新发声:自监督+世界模型,让 AI 像人类与一样学习与推理
  4. 让老鼠迷上玩《毁灭战士2》?这个匈牙利神经科学家做到了
  5. 全球首个机器人抓取云竞赛落幕,华科夺冠,中国团队包揽前三
  6. 独家 | 菜鸟级机器学习入门(附代码实例)
  7. ACL Fellow 2021名单出炉!华为刘群、中科院自动化所宗成庆当选!
  8. 香港科技大学谢知遥教授实验组招收机器学习全奖博士生
  9. 重磅!上海交通大学取消博士论文发表要求!
  10. 人为「刷」论文引用量,IEEE高级会员被终身“禁赛”,奖项被撤销