g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin Chinese Based on a New Open Benchmark Dataset
时间:submitted to interspeech 2020
单位:Kakao Brain(韩国)
Open source dataset:
数据集构建:从维基百科中爬下来的句子,去除了太长的(>50字)和太短的(<5字)。只保留了句子中只有一个多音字的句子,因此每个句子中有且仅有一个多音字。
数据集划分:Trainset: 79117条句子,Testset: 10254条句子,Devset: 9893条句子。
三个子集都包括623个多音字,876个发音。

Benchmark:
模型结构:一层64维的embedding,一层64个节点的Bi-LSTM,两层全连接64个节点,还有最后一层全连接876个节点。
模型参数:477k
模型大小:1.7M
效果:在test集的表现超过了市面上的api,仅稍次于Chinese Bert(100多M的大模型)。

【多音字消歧】g2pM相关推荐

  1. G2P 中文转拼音 多音字消歧 论文总结

    论文链接均在作者Github下,大家多多专注呀! 1. 字形转音素 1.1 基于规则 (1998) Issues in building general letter to sound rules 1 ...

  2. 知识图谱(五)——实体消歧

    一.任务概述 多样性--同一实体在文本中会有不同的指称.eg:飞人.帮主.老大和MJ都指美国篮球运动员迈克尔·乔丹 歧义性--相同的实体指称在不同的上下文中可以指不同的实体.eg:迈克尔·乔丹指美国篮 ...

  3. 【NLP】NLP中的消歧

    作者 | Nesrine Sfar 编译 | VK 来源 | Towards Data Science 如果你点开这篇文章,这意味着你有足够的好奇心去学习关于NLP/NLU中解决歧义的不同方法. 背景 ...

  4. 总奖金15万,双赛道同名消歧挑战赛报名进行中

    2020链想家计算科技大赛,由区块链教育新媒体平台链想家主办,biendata竞赛平台承办.旨在培养高质量的高新技术人才队伍,实现区块链技术与人工智能技术对不同行业的赋能改造. 链想家致力于将本次大赛 ...

  5. OAG – WhoIsWho 同名消歧竞赛发布 | 10万元奖金双赛道

    当大家想要搜索论文的时候,就会去Google Scholar,PubMed,AMiner这样的学术搜索系统上搜索论文.不过,由于学术系统内部的数据十分巨大(AMiner大约有130,000,000作者 ...

  6. 基于在线百科知识库的多义词词义消歧项目

    WordMultiSenseDisambiguation WordMultiSenseDisambiguation, chinese multi-wordsense disambiguation ba ...

  7. 文献阅读课10-Neural Relation Extraction for Knowledge Base Enrichment(提取+嵌入+消歧+规范化联合模型,实体已知,仅关系抽取,多词实体)

    文章目录 Abstract 1.Introduction 2. 相关工作 2.2 Entity-aware Relation Extraction 3.提出的模型 3.1 Solution Frame ...

  8. nlp2-数学基础(信息论,概率论、词义消歧)

    文章目录 概率论 信息论 计算熵 计算信息熵.条件熵.联合熵 波利尼亚语 熵率 噪声信道模型 建立一个翻译 词义消歧(WSD 贝叶斯 最大熵的消歧方法 概率论 在自然语言处理中,以句子为处理单位时一般 ...

  9. Intel Sandy Bridge/Ivy Bridge架构/微架构/流水线 (16) - L1数据缓存/存储转发访存消歧存储体冲突

    Store Forwarding 如果读存操作紧跟着写存操作,且要读取的数据包含在要写入的数据中,则数据可能可以从写操作直接转发给读操作.这个过程叫做"存储-读取转发",简称为&q ...

最新文章

  1. 初学Python的学习笔记7----偏函数、模块、重点是面向对象
  2. POJ1741 Tree(树分治——点分治)题解
  3. hashmap的五种便利方式
  4. 10.5做题——全排列(初赛复习)
  5. autofac 作用域_控制作用域和生命周期
  6. 出栈顺序 与 卡特兰数(Catalan)的关系
  7. Qt 4.7.1 和 Mobility 1.1.0 已发布
  8. html5a链接_html 超链接(a)详细讲解
  9. python selenium等待特定网页元素加载完毕
  10. html里面怎么引入swiper,JavaScript库——使用swiper.js创建嵌套的swiper
  11. 虚拟机 ms-dos系统下下载masm611详细步骤(带图)
  12. 「原创」如何快速获取银行、联行号的数据?
  13. Ps的变换、蒙版与色彩平衡
  14. 解决es集群Yellow与Red的问题
  15. SpringMVC实现全局异常处理器
  16. Android之登录注册——简易版
  17. 文件如何自动上传到服务器,ftp如何自动上传文件到服务器
  18. PS 2019 Mac版 自学入门系列(二)——区域选中
  19. Web前端工程师学习路径图,你掌握了多少?
  20. 溺水舆情管控工作总结

热门文章

  1. 2019 linux桌面,Septor 2019下载
  2. h0129. 最长单词 (5 分)
  3. 加入中视频计划,一个视频赚三个平台的钱
  4. java web登陆注册表_Java 访问注册表 - Rayn——做今天最好的自己 - OSCHINA - 中文开源技术交流社区...
  5. PPT素材不用找了,你需要的资源已打包
  6. Vue自定义InputNumber 计数器组件
  7. python和本人很像的卡通头像_怎样制作和真人相像的卡通头像?
  8. 解决几乎任何机器学习问题(完整翻译)
  9. wpa_supplicant demo 分析
  10. Silverlight - 控件和对话框 源自MSDN 参考