晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI

由于和英伟达研究撞车,韩国一位研究语音合成的作者已经哭晕了。

10月31日,英伟达在arXiv网站上传了一篇论文——WaveFlow:一个用于音频合成基于流的生成网络。

英伟达论文地址:
https://arxiv.org/abs/1811.00002

而一位韩国首尔大学的学生发现,自己的研究成果竟然和英伟达高度相似,为了和英伟达抢时间,他们在11月6日赶紧也向arXiv上传了论文。

论文第二作者昨晚还在reddit发帖,并抢时间放出源代码,以此安慰在角落哭泣的第一作者。

FloWaveNet项目

这位韩国学生公布的FloWaveNet,是一种基于流生成模型的原始音频合成方法,只需要一个最大似然损失,不需要其他额外的损失函数。该模型可以实时高效地采样原始音频,而且合成音频的清晰度已经能和WaveNet相媲美。

英伟达也公布了自己的WaveGlow:一种基于流的网络,能够从梅尔频谱图(mel-spectrograms)中合成高质量的语音。 它借鉴了OpenAI的生成网络Glow和DeepMind的WaveNet,能够提供快速,高效和高质量的音频合成,而无需自动回归(auto-regression)。 WaveGlow仅由单一成本函数进行训练,使用单一网络实现,使得训练过程简单而稳定。

源代码与合成音频样品

作者已经在GitHub上公布了FloWaveNet源代码,并和百度研究院数月前发布的语音合成项目ClariNet进行对比。

FloWaveNet项目地址:
https://github.com/ksw0306/FloWaveNet

ClariNet项目地址:
https://github.com/ksw0306/ClariNet

这两个项目都是基于PyTorch实现,此外用户还需要安装音频分析包librosa

为了展示效果,作者还放出了与原始音频、WaveNet合成音频样品的对比(第一段为原始音频、第二段为FloWaveNet合成,第三段为WaveNet合成):

另外,英伟达也放出了自己的WaveGlow的项目和多段音频对比,但是却没有提供源代码:
https://nv-adlr.github.io/WaveGlow

不过,有英伟达论文的第三方PyTorch实现可用:
https://github.com/npuichigo/waveglow

因祸得福

帖子发出后2个小时内,获得了热烈讨论。有人分享了类似“撞车”经验,表示单枪匹马很难与大公司众多工程师竞争,自己开始某项研究数月后,就被DeepMind抢发了论文。

不过还是有人鼓励作者,英伟达的WaveGlow目前仅仅是提交到arXiv,还未正式发表,希望作者不要担心。

很快帖子就吸引来了行业大咖。英伟达WaveGlow作者之一、负责应用深度学习的副总裁Bryan Catanzaro在回帖中点赞,并且抛出了橄榄枝,希望发帖者能够去英伟达实习。

不知道这算不算因祸得福呢?

年度评选申请

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

活动策划招聘

量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

语音合成论文和英伟达撞车,韩国小哥紧急放出全部草稿代码和样本 | 资源帖...相关推荐

  1. 论文Express | 英伟达最新:多模态无监督图像迁移网络框架

    不久前,文摘菌给大家分享了一篇Ian Goodfellow的论文,教大家如何把一张哈士奇的图像硬生生的AI成一只猫咪,论文的结果确实会让人傻傻分不清楚,点击这里查看相关内容. 然而,今天的这篇论文效果 ...

  2. 语音合成论文与韩国小哥“撞车”后续:英伟达“赶紧”把代码开源了

    乾明 编辑整理 量子位 出品 | 公众号 QbitAI 前两天,量子位报道了韩国小哥语音合成论文与英伟达撞车一事. 在得知自己的论文与英伟达的论文"撞车"之后,韩国小哥赶紧在arX ...

  3. 涂鸦一键变逼真照片,我被自己的绘画技巧惊呆了 | 英伟达朱俊彦CVPR新研究...

    安妮 发自 凹非寺 量子位 出品 | 公众号 QbitAI 平静的水面上,剧变突然出现. 一条黑色弧线从半空延伸而下,划过半个圈.继而自己填满,俨然一座岩山,就这样落在水中间. 水面漾起波纹.揉揉眼睛 ...

  4. 本周AI热点回顾:百度推出全球首个mRNA疫苗不稳定性解决方案、性能提升20倍:英伟达GPU旗舰A100

    01 百度推出全球首个mRNA疫苗不稳定性解决方案LinearDesign 新冠疫情爆发后,RNA设计领域世界知名专家.斯坦福大学生物化学系Rhiju Das教授关注到疫苗研发存在的一个非常棘手的问题 ...

  5. 源代码来了 | 英伟达开源行人生成/重识别代码

    前几天英伟达开源了DG-Net的源码.让我们来回顾一下这篇CVPR19 Oral的论文. 论文是英伟达(NVIDIA), 悉尼科技大学(UTS), 澳大利亚国立大学(ANU)的研究人员 在CVPR19 ...

  6. powerbuilder TriggerEvent 参数_NLP界“威震天”袭来!英伟达1小时83亿参数打造史上最大语言模型...

    [新智元导读]英伟达一举创造了2个壮举!训练出了世界上最大的语言模型--MegatronLM,包含83亿参数,比BERT大24倍,比GPT-2大5.6倍:还打破了实时对话AI的记录,仅耗时53分钟即可 ...

  7. 下调收入预期,股价暴跌14%,英伟达人工智能第一股的美梦将醒?

    大数据文摘出品 作者:蒋宝尚.魏子敏 据<华尔街日报>报道,当地时间1月28日,英伟达(Nvidia)以"宏观经济状况恶化,特别是在中国"为由,下调了第四财季的收入预期 ...

  8. 【英伟达显卡黑屏问题】nvlddmkm错误

    系统环境: 戴尔G15 ,Windows10 家庭版 版本21H2 (操作系统内部版本19044.2728) 英伟达RTX 3060显卡,版本: 531.18 DCH (2023年3月底的版本). 问 ...

  9. 2023「炼丹」GPU选购指南来了:英伟达3080和4070Ti成性价比之王

    Alex 发自 凹非寺 量子位 | 公众号 QbitAI 春暖花开,各位深度学习er想不想给自己的"丹炉"升级一波? "炼丹"爱好者们应该知道,在该领域中,** ...

最新文章

  1. linux 把命令行结果赋值给变量;linux if语句 ; command log
  2. Java 中的 BigDecimal,你真的会用吗?
  3. 王道计算机网络 网络层整理 超详细版
  4. QObject::connect: No such signal QGraphicsView::mouseMovePoint(QPoint) in ***
  5. 东莞华勤通讯软件测试怎么样,【社招】华勤通讯NBD测试验证部急聘岗位-东莞...
  6. wsdl互联网短信接口_中国移动推出短信小程序
  7. Codeforces Round #FF (Div. 2) D. DZY Loves Modification 贪心+优先队列
  8. 开放API 与 查询语言GraphQL
  9. ElementUI:没有dist文件夹,vue项目打包后字体图标失效,变成小方框解决方案
  10. C++/CLI的简单介绍。from维基百科们,http://zh.wikipedia.org/zh-cn/C%2B%2B/CLI
  11. python 动态加载代码_python 动态网页爬取?(不是加载更多页的动态网页哟)?...
  12. 什么是医疗健康管理系统?
  13. ipad文献管理软件_【MAC上写论文有哪些好的文献管理软件可以推荐?】-看准网
  14. Matlab 阶乘factorial
  15. KindEditor上传图片及使用
  16. 企业微信开发服务端报错汇总(手把手教你企业微信开发五)
  17. Java实现简易图形编辑系统
  18. c语言char10是什么意思,c语言char是什么意思
  19. 蓝桥杯 算法提高 矩阵乘方
  20. untiy Socket通信一篇通

热门文章

  1. 打通应用隔阂,AR 如何助力互联网度过寒冬?
  2. Google 发布全中文机器学习速成课,曾内部培训过 1.8 万人!
  3. Java高级开发面试,Java面试没有项目经验
  4. java语言的主要特点有简单性,太厉害了!
  5. 输入学号查询课程c语言,广工c语言课程设计
  6. linux设置不同地址,ubuntu20.04设置静态ip地址(包括不同版本)
  7. java 多个ssl证书_java – 将多个SSL证书固定添加到Android KeyStore不起作用. (来自资源文件)...
  8. python质量转换程序,Python库的文件转换成MP3和设置它们的质量
  9. Android服务显式启动、隐式启动、绑定服务、本地客户端调用远程服务器音乐文件
  10. Maven项目出现web.xml is missing and 《failOnMissingWebXml》is set to true,已解决