tts文字转语音

Ken Starks是Reglue (可循环使用的电子产品和用于教育的GNU / Linux)的执行董事,该公司接受损坏或报废的计算机进行翻新并将其放置在德克萨斯州奥斯汀及其周边地区的贫困儿童家庭中。

2015年,自由软件基金会向Reglue 颁发了“社会公益项目奖” 。 在因癌症而失去喉咙后,Ken使用文字转语音(TTS)软件展示了LibrePlanet 2015 。 在这次采访中,Ken向我们介绍了他在Texas Linux Fest上的演讲,即文本语音转换和Linux

文本语音转换软件的一些实际实现是什么?

文字转语音软件最常用于两个目的。 TTS可以并且经常用于视力障碍者的屏幕阅读。 尽管它经常与语音识别软件混淆,但两者之间的界限相当模糊。 TTS的最高定义用途是允许无法讲话的人进行交流。 今年1月,我对癌症失去了发言权,我依靠TTS与小组进行交流或演讲,或者进行实时交流。

您是否对可用于Linux的文本语音转换软件的现状感到满意? 有改善的空间吗?

简洁地回答,不,是。 但是我从来不以简洁为目的,或者有任何变得简洁的意图(向萤火虫的Jayne Cobb点头)。 Linuxsphere中的文本到语音软件陷入了混乱。 我发现,尽管在Linux中有很多可供选择的软件,但是说该软件甚至还不能为日常计算机用户EDCU准备就绪。 我受到腕管的挑战,因此我的首字母缩写列表每天都在增长。 这是我发现的:

在2015年1月16日,我醒了,知道我很快就会再次入睡,而当我这次醒来时,我的喉咙将消失,我的说话能力也将消失。 作为记录,我会注意到有些人并不一定认为这是一件坏事。 我最大的错误是假设我需要TTS所需的软件已准备就绪,正在等待使用。 当我浏览可用的TTS选项时,我没有注意到的是,该软件都无法立即使用。

因此,我跳入Linuxsphere中的TTS的世界,发现水几乎立刻就淹没了我。 现在,我可以继续举例说明我的观点。 我认为特别是一个例证将对我很好。 当我第一次搜索我的选项以准备使用TTS应用程序时,这是我发现的第一件事( 来源 ):

安装增强的CMU Arctic声音

这些声音是由卡内基梅隆大学语言技术学院开发的。 它们的声音比双音色的声音和MBROLA的声音都要好得多 。缺点是每个声音占用磁盘上的100兆,并且有六种英语声音可供选择,这可能占用大量带宽来下载和依赖关于要使用多少磁盘空间,语音数据可能需要600多兆的空间。 但是,下一节中讨论的HTS语音实际上可以提供相同或更好的质量合成,并且仅小于大小的2%。

下载声音

我们会将英语语音所需的所有内容下载到一个临时目录中(总下载大小约为600兆,您可能想冲泡咖啡或其他一些东西,很多……我们可能会在这里)

码:

mkdir cmu_tmp
cd cmu_tmp/
://www.speech.cs.cmu.edu/cmu_arctic/packed/cmu_us_awb_arctic-0.90-release.tar.bz2
wget -c htt
wget -c htt
pp://www.speech.cs.cmu.edu/cmu_arctic/packed/cmu_us_bdl_arctic-0.95-release.tar.bz2
e.tar.bz2
wget -c http://www.speech.cs.cmu.edu/cmu_arctic/packed/cmu_us_jmk_arctic-0.95-relea
wget -c http://www.speech.cs.cmu.edu/cmu_arctic/packed/cmu_us_clb_arctic-0.95-relea sse.tar.bz2
wget -c http://www.speech.cs.cmu.edu/cmu_arctic/packed/cmu_us_rms_arctic-0.95-release.tar.bz2
wget -c http://www.speech.cs.cmu.edu/cmu_arctic/packed/cmu_us_slt_arctic-0.95-release.tar.bz2

注意:您可以在wget中添加选项“ --limit-rate”以设置最大传输速度(例如,“ wget -c --limit-rate = 60K ...”将下载速率限制为60KB / s) 。

真? 这是Ubuntu或衍生产品上TTS的“解决方案”吗? 你一定是在跟我开玩笑。 我的意思是,如果您进一步搜索,可能会发现稍微容易一些; 但不是很多。 首先,我要提一提,如果您想包含MBROLA的声音,它们不是开源的。 据说,它们也不容易安装。 现在,公平地说,有人尝试将TTS作为浏览器扩展在Chrome中找到。 Speakit似乎将是我的解决方案,但是它在功能和使用领域方面受到限制(无论如何对我而言)。 我的需求归结为一件事。 我需要能够进行实时甚至接近实时的交流。 我已经将“ Swype” WPM增加到将近70,因此归结为TTS软件具有不错的前端。

这是我们面临的问题,可以归结为最简单的术语:使声音产生实际单词的软件,声音本身通常是两个不同的实体,有时是三个。 我第一次接触Orca并不愉快。 我以为我在某处听到刮擦的录音或说话者的crack啪声,这使我烦恼不已。 事实证明,Orca已编程为在启动时开始读取第一个屏幕。 这绝对是令人恐惧的声音表示,而且我什至看不到如何将其作为用户可用的软件发行,而不是带有“声音”。 因此,例如,尝试使用Festival的用户将希望添加不同的声音,因为默认声音太过机械化了。 问题就从这里开始。

每个应用程序的开发人员起初都可以正常工作,但是最终,其中一名开发人员将在自己的终端上做一些更改,例如,关键文件路径。 很好,除非您是需要访问这些文件的软件的开发人员。 没有人告诉她或他这个更新。 突然,TTS应用程序坏了,因为当开发人员更改了这些文件路径并且没有理会告诉该开发人员时,它正在一个目录中查找语音文件。 可悲的是,有时这些应用程序只是被完全抛弃。 谁受苦? 最终用户。 这就是为什么我要特别注意这个领域。

我完全同意在Android / Chromebook和iExperience中可以找到TTS解决方案。 我实际上是在Nexus 7上使用一个名为Speech Assistant的应用程序。我会尽可能在平板电脑上使用它,这是我认为TTS应用程序应具备的所有功能-不仅在移动市场,而且在Linux中也是如此。 这就是我在这里工作的重点。 移动市场上有不错的TTS应用程序。 Linux没有。 告诉某人忘却Linux并使用移动应用程序是一种躲闪,简单而简单的方法。 这是摆脱挑战的一种懒惰方式。

该建议通常是由不知道他们在说什么,不了解或关心用户的特殊需求的人提出的。 我的电脑和笔记本电脑是我和全世界面对的声音。 在工作时,我们不需要局促或笨拙的移动应用程序。 我们需要在桌面上使用此解决方案,并且需要尽快使用它。 在我以前有关该主题的文章和博客中,来自世界各地的人们都要求我及时告知他们是否应该找到解决该问题的合适方法。 此软件引起了全球关注。

阅读马塞尔·加涅先生的评论使我非常满意。 马塞尔(Marcel)是一位记者和作家,我非常敬佩,我每周都会阅读他的作品。 马塞尔(Marcel)对我的《 自由与开放源码》部队有关此事的文章发表了评论。 Marcel提到他10年前写了一篇文章,哀叹Linux中TTS的状态。 马塞尔说,这个问题在整整十年之后仍然存在,这让他感到失望。 看来,这将使我们两个人成为现实。

除了屏幕阅读功能外,我不太确定两者之间的区别。 Linux社区可以做什么来解决此问题?

我以前曾这样说过,但收到过一封严厉的电子邮件,涉及到我们大多数人每天都在使用的短语。 那句话是“ Linux社区”。 我的第一手经验是注意到,实际上没有什么东西接近“ Linux社区”。 在最好的一天,我们是众多交战派系,在我们奔跑穿越互联网战场时,口头上互相残杀,留下血腥痕迹。 但是,更紧密的Linux社区,专注于特定问题或特定问题的社区或团体可以为解决该问题大有帮助。

要解决问题,任何人要做的第一件事就是引起有能力解决此问题的人们的注意。 这并不总是一件容易的事。 实际上,这绝非易事。 您面临的任务是说服开发人员大量需要并且将使用他们的软件。 在FOSS中,“开发人员”一词在我们的日常交易中使用很多。 我的意见是,这个临时性的用语掩盖了开发人员是什么以及他或他的工作有多困难。 要花很多时间才能变得有效率和熟练的编程能力,其中包括所有的编程语言。 要求软件开发人员花一些时间来从事您的项目,这应该尽可能地谦虚。 让米开朗基罗从他的脚手架上爬下来油漆你的车库需要精巧,你的帽子紧紧地握在手中。

是否有任何值得注意的项目试图解决这个问题,我们应该在不久的将来予以关注? 如果没有,是什么阻止了Linux平台上的文本到语音软件的进一步开发?

显? 尚未,但接下来的几句话中会有。 我在FOSS Force上发表的文章谈到了开源Java应用程序MaryTTS需要易于使用的前端所带来的结果。 目前,三个Java开发人员正在集中精力开发此GUI。 MaryTTS是一个了不起的应用程序,但是与许多TTS程序一样,它也是使用的PITA。 通常,用户界面是命令行。 对于95%的EDCU,这是行不通的,我将参考前面引用的示例。

三位开发人员正在两大洲和三个时区工作,以将他们的技能应用到该项目中。 现在,我们有了一个alpha或至少是一个概念证明。 基本的文本到语音功能正在运行,但是GUI中还将内置许多其他功能。 同样,为了避免混淆,我们的项目是MaryTTS的前端。 至于名称,我们希望它易于识别为前端。 目前,我们正在使用Voices4MaryTTS,但其他名称也正在探索中。 我们欢迎提出可用于命名该应用程序的建议。 这是我们目前正在生产的示例:

您可以在此处下载。 同样,这几乎不是Alpha版本,因此请记住这一点。

Linux平台当前是否在该领域落后于其他竞争对手?

在比赛中,它甚至从来都不是真正的竞争者。 在我看来,自诞生以来,Linux中的大多数TTS应用程序一直处于爱好者模式。 而且我敢肯定,这种说法将使很多人望而却步,但是将所有使用TTS的Linux程序与Mac,Windows甚至移动市场进行简单的比较,将使我失望。 希望我们能够提高认识,至少可以看到Linux上的TTS向前发展。 希望。

德州Linux巨星
演讲者访谈

本文是针对Texas Linux Fest的演讲者访谈系列的一部分。 德州Linux Fest是第一届全州性,年度性,社区运行的会议,面向Linux和开放源代码软件用户以及来自孤独之星州的爱好者。

翻译自: https://opensource.com/life/15/8/interview-ken-starks-texas-linux-fest

tts文字转语音

tts文字转语音_Linux文字转语音(TTS)的问题相关推荐

  1. 【PC工具】更新文字转语音、文字文本朗读工具,语音朗读软件,TTS语音合成...

    公众号关注 "DLGG创客DIY" 设为"星标",重磅干货,第一时间送达. 昨天在群里嫖到一个在线的文字转语音(TTS)工具,不敢独享拿来分享.上次分享的文字转 ...

  2. HTML5文字转语音源码,微软TTS语音源码(将文本转为语音并播放)

    [实例简介]利用微软TTS语音,字符串转语音播放,或者保存为语音文件. 语音库需自行下载,推荐Hui 发音人 微软TTS文字转语音发音人修复 微软TTS语音 Win7修复 发音人 [实例截图] [核心 ...

  3. TTS 文字转语音 语音转文字

    pyttsx3 pip install pyttsx3import pyttsx3def say_text(engine, words, voice):# 设置音色engine.setProperty ...

  4. Python 神工具包!翻译、文字识别、语音转文字统统搞定

    今天给大家介绍一款 Python 制作的实用工具包,包含多种功能: 音频转文字 文字转语音 截图 OCR文字识别 复制翻译 举个例子,比如截图 OCR 文字识别就有很多实用场景. 常会遇到有些 PDF ...

  5. python识别pdf文字_Python 神工具包!翻译、文字识别、语音转文字统统搞定

    今天给大家介绍一款 Python 制作的实用工具包,包含多种功能: 音频转文字 文字转语音 截图 OCR文字识别 复制翻译 举个例子,比如截图 OCR 文字识别就有很多实用场景. 常会遇到有些 PDF ...

  6. Android百度语音集成——文字转语音

    项目涉及文字转语音的需求,用Android原生提供的TTS生成的语音太单调,机器声音太明显,故寻求第三方更好的支持,用科大讯飞的语音包收费,百度语音免费而且不限制调用次数,主页鲜明说永久免费的智能语音 ...

  7. Qt5 WindonwsTTS语音朗读 文字 朗读

    Qt5 WindowsTTS语音朗读 Qt之WindowsTTS语音朗读 文章目录 Qt5 WindowsTTS语音朗读 一.添加pro 二.使用步骤 1.引入库 2.文件.h 3.文件.cpp 总结 ...

  8. Qt --实现语音读文字功能

    目的:实现语音读文字功能 .h #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> #include <Q ...

  9. python语音转文字_Python文字转语音示例

    python语音转文字 Here you will get python text to speech example. 在这里,您将获得python文本语音转换示例. As we know, som ...

最新文章

  1. Fedora 提出统一流程,弃用上千 Python 2 软件包更可控
  2. @程序员,什么键盘最耐用?| 每日趣闻
  3. mysql修改字段为现在时间_mysql如何修改字段自动生成时间
  4. ubuntu16.04安装ssh服务,远程登录
  5. SQL Server 2005“备份集中的数据库备份与现有的数据库不同”解决方法此信息转载自BlueSky's Blog,www.heuupk.com,为尊重无价的知识请保留此版权信息。...
  6. 【转】有的共享软件赚了一百万美元,而为什么你没有?我的软件推广成功之路...
  7. 循环链表:拉丁方阵问题
  8. 华为修改优先级命令_(完整版)华为设备基本配置命令
  9. PLC与C语言的本质区别,一文告诉你PLC与计算机的本质区别在哪里!
  10. android客户端设置,android客户端设置界面开发实例
  11. BZOJ 3098: Hash Killer II(新生必做的水题)
  12. Java基础篇:if控制语句
  13. oracle11g Rac Bond,Oracle11g搭建RAC步骤..doc
  14. 最短路径顶点算法:最短路径之迪杰斯特拉(Dijkstra)算法Strut2教程-java教程
  15. 工业互联网标识解析与标识服务机构服务能力成熟度等级评估管理平台【需求规格说明书/用户手册】
  16. 金山反间谍清理专家能清除的部分恶意软件清单(截至2007年2月28日更新)
  17. 一只潜力十足的专业电竞游戏鼠标——HyperX巨浪RGB电竞鼠标
  18. 安卓kali安装mysql_超详细安卓手机安装kali教程(root篇)
  19. linux 合并文本文件,Shell脚本合并文本文件
  20. c++中文件打开失败

热门文章

  1. 前台传String日期格式后台用date接收
  2. 条款27:熟悉万能引用类型进行重载的替代方案
  3. Jscript 01 实现比较两个数的大小
  4. linux图片裁剪工具,Linux_在Linux的命令行中实现裁剪图片的方法 ,当涉及到在Linux中转换或编辑 - phpStudy...
  5. Python基础(四)——列表
  6. VMware虚拟机网络配置-NAT篇
  7. Android会员卡充值方案的实现
  8. 土木专业学c语言,用一句话形容你的专业,得知真相的我眼泪流下来
  9. python字典的比较_python中字典的比较
  10. 程序员需求开发流程及注意事项