拼音输入法输出的候选分成两个部分,系统词以及短句(智能组词),智能组词是通过model以及解码弄出来的,兴许再说。
系统词就是那些经常使用的词(词组)收录到词典中,用户的输入和词典中的词match时,直接吐出来,而不须要解码获得。
系统词以及相应的rank(score)对输入法的体验非常大,毕竟大多数用户还是继续短词输入。
系统词包括几个部分:
1.基础词
2.高频短串
3.细胞词库
当中基础词的比較复杂,也没有统一的方法。

一般的做法是:

1.对训练语料进行分词,然后取top 20-50w的词作为基础词,假设有知识库等分类的词典,能够依照类别。比方电商等能够引入一些词
2.获取第三方的核心词典。将大家都有的,或者基于一定的规范。选择出来。作为核心词典。
这个非常重要,可是基本上高频的都能被cover住,而中低频的就看产品需求了。
针对高频短串。比方“去哪里”等等,没有必要通过智能组词来解决。智能组词毕竟是有错误率的。
同一时候。加到核心词库里面后。在展现上比較方便控制。
毕竟智能组词一版智能选一个最好的。而系统词能够有多个。“去哪里”去那里“

转载于:https://www.cnblogs.com/brucemengbm/p/6920989.html

输入法之核心词典构建相关推荐

  1. HanLP二元核心词典详细解析

    2019独角兽企业重金招聘Python工程师标准>>> 本文分析:HanLP版本1.5.3中二元核心词典的存储与查找.当词典文件没有被缓存时,会从文本文件CoreNatureDict ...

  2. Google原生输入法LatinIME词库构建流程分析(二)

    在Google原生输入法LatinIME词库构建流程分析(一) 中分析LatinIME构建流程进行到了dict_trie->dict_list_->init_list这一步,然后就是构建N ...

  3. 面对1.3 亿用户数据泄露,企业如何围绕核心数据构建安全管理体系?

    大表哥 helen 再次重现江湖,并且带来不断的惊喜~~~ 据 FreeBuf 报道,8 月 28 日早上 6 点,暗网中文论坛中出现一个帖子,声称售卖华住旗下所有酒店数据,数据标价 8 个比特币,约 ...

  4. 老年消费市场最新观察:变化/趋势/入局/未来,以人为核心,构建信任感

    演讲丨AgeClub创始人 段明杰 7月24日,AgeClub成功举办了2020中国老年行业创新发展系列论坛(上海站),与会嘉宾就"后疫情时期,中国老年行业创新的机会与挑战应对"这 ...

  5. 项目经理责任制核心要点·构建项目经理的选聘体系

    对于工程建设项目而言,项目经理无疑是整个项目管理活动中最核心岗位.这一点从项目经理在项目管理活动中的地位即可体现:项目经理是企业法定代表人在建设工程项目上的委托代理人,是对建设工程项目管理实施阶段全面 ...

  6. Google原生输入法LatinIME词库构建流程分析--相关数据结构分析

    其实输入法词库相关数据结构的定义基本上都在头文件dictdef.h文件中,进入到代码目录cpp下. 初始化字库,首先读取txt文件内容到数据结构lemma_arr和valid_hzs中,lemma_a ...

  7. 通过主题词词典构建进行文本多标签分类

    文章目录 前言 一.数据预处理 1.引入库 2.读入数据 3.文本分词 3.计算每句得分 4.计算每句得分 总结 前言 目前,文本多标签分类具有非常多的深度学习的方法实现,本文将介绍最基础的,通过构造 ...

  8. Google原生输入法LatinIME词库构建流程分析(三)--N-gram信息构建

    N-gram信息的构建在ngram.cpp中进行构建: bool NGram::build_unigram(LemmaEntry *lemma_arr, size_t lemma_num,LemmaI ...

  9. python中文词典构建_python-构建英语学习词典

    1.从网上下载一个机器学习有关的中英文对照文件,转换为csv文件格式. import numpy import os #---------------------------------------- ...

最新文章

  1. [JAVA][Liferay] Configure sharding in multiple sites
  2. 博弈——Nim博弈(hdu2176,1850,1851,1907,1849)
  3. mysql 函数修改无效_MySQL:无效使用组函数
  4. 力扣654. 最大二叉树(JavaScript)
  5. 帆软报表设计器菜单栏介绍之一
  6. 谍照曝光!特斯拉正在测试完全自动驾驶
  7. BaiduMapsApiDemo报错:请在 DemoApplication.java文件输入正确的授权Key
  8. weblogic进程自动关闭_手机内存不够还卡顿,那是你不会清理,关闭这3个设置就变流畅...
  9. web.config中的ExtensionlessUrlHandler-Integrated-4.0
  10. 小麦积分墙:如何更好的使用积分墙
  11. android 离线地图 开源,android osmdroid 加载常用离线地图格式(开源的在线地图)...
  12. linux nfs不在同一个网络,NFS共享机制
  13. ArcGIS校园3D展示图制作详细教程
  14. 022-互惠合作|离职员工的关系网
  15. php面试题3---php面试题系列
  16. EXCEL显示 文件未保存 解决方法
  17. 微信支付和支付宝支付所用应用签名如何获取
  18. SuperMap Vue-iClient3D-WebGL 使用指南
  19. 更换IPHONE备份路径
  20. 理解控制变量、内生变量、外生变量、工具变量

热门文章

  1. DIV+CSS星号(*)选择器
  2. asp.net使用for循环实现Datalist的分列显示功能
  3. 把struts2的struts.xml配置文件分解成多个配置文件
  4. .Net有关问题。在GridView中添加了一个HyperLinkField,用来显示显示详细信息,请教跳转后的详细信息页面该怎样写代码
  5. asp.net夜话之五:Page类和回调技术
  6. golang中的嵌套
  7. shell实例第20讲:linux shell date的用法
  8. mybaits四-2:模糊查询
  9. mybaits二十二:一级缓存失效的几种情况
  10. mybaits三:全局配置文件(全面)