【多音字消歧】g2pM
g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin Chinese Based on a New Open Benchmark Dataset
时间:submitted to interspeech 2020
单位:Kakao Brain(韩国)
Open source dataset:
数据集构建:从维基百科中爬下来的句子,去除了太长的(>50字)和太短的(<5字)。只保留了句子中只有一个多音字的句子,因此每个句子中有且仅有一个多音字。
数据集划分:Trainset: 79117条句子,Testset: 10254条句子,Devset: 9893条句子。
三个子集都包括623个多音字,876个发音。
Benchmark:
模型结构:一层64维的embedding,一层64个节点的Bi-LSTM,两层全连接64个节点,还有最后一层全连接876个节点。
模型参数:477k
模型大小:1.7M
效果:在test集的表现超过了市面上的api,仅稍次于Chinese Bert(100多M的大模型)。
【多音字消歧】g2pM相关推荐
- G2P 中文转拼音 多音字消歧 论文总结
论文链接均在作者Github下,大家多多专注呀! 1. 字形转音素 1.1 基于规则 (1998) Issues in building general letter to sound rules 1 ...
- 知识图谱(五)——实体消歧
一.任务概述 多样性--同一实体在文本中会有不同的指称.eg:飞人.帮主.老大和MJ都指美国篮球运动员迈克尔·乔丹 歧义性--相同的实体指称在不同的上下文中可以指不同的实体.eg:迈克尔·乔丹指美国篮 ...
- 【NLP】NLP中的消歧
作者 | Nesrine Sfar 编译 | VK 来源 | Towards Data Science 如果你点开这篇文章,这意味着你有足够的好奇心去学习关于NLP/NLU中解决歧义的不同方法. 背景 ...
- 总奖金15万,双赛道同名消歧挑战赛报名进行中
2020链想家计算科技大赛,由区块链教育新媒体平台链想家主办,biendata竞赛平台承办.旨在培养高质量的高新技术人才队伍,实现区块链技术与人工智能技术对不同行业的赋能改造. 链想家致力于将本次大赛 ...
- OAG – WhoIsWho 同名消歧竞赛发布 | 10万元奖金双赛道
当大家想要搜索论文的时候,就会去Google Scholar,PubMed,AMiner这样的学术搜索系统上搜索论文.不过,由于学术系统内部的数据十分巨大(AMiner大约有130,000,000作者 ...
- 基于在线百科知识库的多义词词义消歧项目
WordMultiSenseDisambiguation WordMultiSenseDisambiguation, chinese multi-wordsense disambiguation ba ...
- 文献阅读课10-Neural Relation Extraction for Knowledge Base Enrichment(提取+嵌入+消歧+规范化联合模型,实体已知,仅关系抽取,多词实体)
文章目录 Abstract 1.Introduction 2. 相关工作 2.2 Entity-aware Relation Extraction 3.提出的模型 3.1 Solution Frame ...
- nlp2-数学基础(信息论,概率论、词义消歧)
文章目录 概率论 信息论 计算熵 计算信息熵.条件熵.联合熵 波利尼亚语 熵率 噪声信道模型 建立一个翻译 词义消歧(WSD 贝叶斯 最大熵的消歧方法 概率论 在自然语言处理中,以句子为处理单位时一般 ...
- Intel Sandy Bridge/Ivy Bridge架构/微架构/流水线 (16) - L1数据缓存/存储转发访存消歧存储体冲突
Store Forwarding 如果读存操作紧跟着写存操作,且要读取的数据包含在要写入的数据中,则数据可能可以从写操作直接转发给读操作.这个过程叫做"存储-读取转发",简称为&q ...
最新文章
- 初学Python的学习笔记7----偏函数、模块、重点是面向对象
- POJ1741 Tree(树分治——点分治)题解
- hashmap的五种便利方式
- 10.5做题——全排列(初赛复习)
- autofac 作用域_控制作用域和生命周期
- 出栈顺序 与 卡特兰数(Catalan)的关系
- Qt 4.7.1 和 Mobility 1.1.0 已发布
- html5a链接_html 超链接(a)详细讲解
- python selenium等待特定网页元素加载完毕
- html里面怎么引入swiper,JavaScript库——使用swiper.js创建嵌套的swiper
- 虚拟机 ms-dos系统下下载masm611详细步骤(带图)
- 「原创」如何快速获取银行、联行号的数据?
- Ps的变换、蒙版与色彩平衡
- 解决es集群Yellow与Red的问题
- SpringMVC实现全局异常处理器
- Android之登录注册——简易版
- 文件如何自动上传到服务器,ftp如何自动上传文件到服务器
- PS 2019 Mac版 自学入门系列(二)——区域选中
- Web前端工程师学习路径图,你掌握了多少?
- 溺水舆情管控工作总结
热门文章
- 2019 linux桌面,Septor 2019下载
- h0129. 最长单词 (5 分)
- 加入中视频计划,一个视频赚三个平台的钱
- java web登陆注册表_Java 访问注册表 - Rayn——做今天最好的自己 - OSCHINA - 中文开源技术交流社区...
- PPT素材不用找了,你需要的资源已打包
- Vue自定义InputNumber 计数器组件
- python和本人很像的卡通头像_怎样制作和真人相像的卡通头像?
- 解决几乎任何机器学习问题(完整翻译)
- wpa_supplicant demo 分析
- Silverlight - 控件和对话框 源自MSDN 参考