你有没有想过,在不能说话的情况下该如何向不识字的摊主点不加香菜的二两毛细(拉面)?

“用手比划?”  “画在纸上?”  “找别人帮忙?”

这个问题,阿卷每天都要用实际行动回答——掏出手机,输入想说的话,发送。手机里的语音引擎会把文字转变成语音,通过手腕上缠着的蓝牙随身音箱,洪亮地播报出来。如果忘了阿卷是谁,请戳下方视频

视频 声音配型捐赠纪录片

自5月13日项目发布至今,我们依然与阿卷保持联系,不断尝试新的使用场景。时至中秋,阿卷特别制作了一个小米月饼开箱视频送给大家

视频 阿卷小米月饼开箱分享

除了开箱月饼,我们还想给大家揭晓一个秘密——在声音配型捐赠“助人为乐”和“技术预研”的外表下,潜藏着一场PBL式的技术人员成长实验

PBL,即项目式学习(project based learning),它是一种基于真实问题主动探索、研究、讨论、合作的学习方法。我们将PBL的模式融入到项目中,让每个技术人员都成为问题的探索者和解决方案的设计者,通过自主学习、团队协作、自我反思获得解决方案、探索技术落地;而基于实际的问题求解过程,也能让技术人员得到知识之外的更多体悟。

图片 PBL中的关键环节

01 

和用户交朋友

就是学会相信他人的智慧

一直以来小米都坚持和用户交朋友,让用户参与产品的打造过程。在PBL的项目中,每一个参与者都是非常重要的一部分,要为问题的解决贡献智慧。声音配型捐赠项目集合了两种理念,随着项目的推进,我们和阿卷的关系也从“接受有挑战的需求”,到了“共破难题的伙伴”。

事实上这并不是阿卷一个人的需求,小米闻声和小爱通话上线后,很多听力、言语障碍用户都反馈过“系统音太像机器人容易被挂电话”。有人请朋友训练了一个模型,稍好些,但朋友打电话来就会不自在,“像是在跟自己聊天”,用户们说:“如果能有一个只属于自己又自然的声音就好了”

图片 阿卷用自创比划手语交流

言语能力健全的人,训练一个自己的声音模型是早已成熟的技术。但这种训练方式,却让最需要机器辅助表达的言语障碍者屡屡受阻。为失声者定制一个既符合先天条件,又满足个人偏好的专属声音,真的不可能吗?我们咨询了语音技术团队的负责人王育军老师,几天后他回复道:“理论和技术上都可行,技术团队也有兴趣,但如果没有真实用户参与反馈,就很难落地。”

——这就是此项目的缘起。对技术同学们来说,它是个触及技术盲区的挑战,所以大家愿意积极地参与,除此之外,这种热情也来源于“和真实用户的直接合作”的机会,这对于算法团队并不常有。

图片 语交流语音技术团队负责人王育军

通常在工作中直接和用户交流的,往往是产品或运营,而算法、研发类的技术人员会“躲”在他们身后,接收被翻译、汇总过的“技术语言”。这当然有效率上的好处,但有时候也会让人疑惑“这真的是用户的本意吗?”

这次,大家的疑惑可以立刻被解答。阿卷和技术团队就在一个群里,每收到一个新版本的软件包,阿卷总是第一时间安装试用,通过他细腻的听觉感知,向群里的技术同学发出“连环追问”:“声音有点机械。” “怎么感觉一卡一卡的?” “为什么云端的音质和本地的不一样?”

负责语音合成算法的丰煜第一次在群里遇到阿卷的反馈时,懵了一下——“产品经理呢?没有?那这是要我来回答?我该怎么说他才能听懂呢?”他默默地组织了几遍语言,一面怕自己说得太技术了,对方不好理解,一面又担心回复慢了,对方会心生不快,“心里慌得不行”。他顺着阿卷的问题,一步步深挖他对于“机械”“卡顿”“不一样”的定义和感受,再对应自己听到的声音,寻找这个问题背后可能的技术和参数原因

图片 技术团队负责语音合成算法的丰煜

随着与阿卷的交流越来越多,丰煜越来越能与阿卷“共情”,很多问题阿卷一指出来,他就能大致上判断是声码器、模型还是语料问题了。用丰煜的话说,去除了用户感知被“转译”的过程,他相当于被训练了“用户主观感知”与“技术方案”之间的映射关系。渐渐熟悉和放松下来的俩人,越来越像是在一起讨论问题最优解的一对儿搭档。阿卷一不小心就跨越了用户与测试的边界——因为没有人比他更懂自己的“真需求”。

同时,阿卷对个人需求的大胆表达,也是丰煜持续打磨这个声音的灵感和动力,他说:“如果没有阿卷积极参与进来,可能我们最初那版很粗糙的声音就已经交付了,因为阿卷不断地使用和反馈,提出新的问题和期待,我们就会不断地去搜论文、想办法,最终才有了这一版声音。”

过去,企业的技术、产品、设计,对于普通用户而言,是遥远的“造物者”。随着媒介的变化,越来越多的人可以发出自己的声音、表达自己的诉求,在源源不断的反馈中,产品的创造者也得以离真实的需求、真实的感受更近,校准更快了。

与用户交朋友,意味着我们彼此尊重,彼此信任。平等和尊重便是我们从这个过程中体会和学习到的。

02 

预研探索

让“可能”变成“能”

看着阿卷投入了时间和精力,我们也会略微不安,声音捐赠作为技术预研,有不成功的风险,我们不想让阿卷失望。但恰恰是有分量的挑战,才能激发大家源源不断的创造力,真正的挑战没有既定的解决方案,也没有明确的终点,每一个参与者都可以在解决问题中挖掘、拓展自己的能力,开辟新的路径,有更高的追求。这个过程不会是坦途。

在丰煜完成阿卷的声音模型后,新的问题自然就产生了——如何让阿卷在手机上运行声音模型呢?一般情况下会选用云端服务,但这忽略了无网络场景,因此如果能把离线版语音包迁移到阿卷手机上,体验就会更好。

图片 春亮与阿卷的合影

春亮在AI实验室负责算法跨平台移植与优化,事实上他一直在预研离线语音的相关技术,但苦于没有真实场景可以进一步探索落地。当阿卷的需求出现在春亮面前时,他的第一反应是:“慈善秀吧?随便搞一下好了。”但很快,他发现这次是来真的!

第一个难点就是,技术人员基于Linux系统训练的声音模型,并不能直接用于阿卷Android系统的手机。尽管Android与Linux系统同源,但因为每台设备都有独自的交叉工具链,只有先对“声音算法”进行匹配工具链的编译,才能适配阿卷的手机。

除此之外,构成这个算法的声学模型(self-attention)和声码器(melgan)网络结构比较复杂,如果利用开源的第三方库进行推理,在配置较低的手机上运行时,会出现音频卡顿、文字转语音运算时间长等问题,阿卷用于日常沟通时会有困扰。因此必须做出更“聪明”的推理库来提升感知水准,这在业内是个新鲜事儿,为此,语音合成组成功自研出mittsce推理库,实现了离线模型的落地,也满足了又快又好的声音需求。但这场“马拉松”还没跑完…

图片 算法模型跨平台编译示意图

由于阿卷作为up主常要制作视频,但用手机生成语音再传到电脑剪辑过于费力,因此新的需求产生了——一个电脑端运行的语音生成器。

面对这个新需求,春亮也只能“摸石头过河”,因为阿卷的声音模型和mittsce推理库都是基于Linux系统开发,可阿卷的电脑系统与Linux系统并不兼容,就无法像手机版离线包一样,通过推理库编译来实现跨平台运行。

而要基于电脑系统重新开发推理库的话,也不是不能做,但太耗时了,一切都要回归开发的原点,于是春亮想到了可以在阿卷的电脑上开辟虚拟机去安装Linux系统,然后再进行编译,这是当时最优性价比的方案,可我们也不确定能否成功,因为阿卷对Linux安装完全是个小白,再加上当时两个人因疫情只能线上沟通,操作的难度就更大了。但没想到阿卷愿意配合春亮去学习Linux安装,很快就在电脑上实现了声音生成,这对我们来说是个意外惊喜。

其实之前我们都曾构想过如何让小爱同学的离线语音模型快速落地,但一直没有真实的场景,而这次定制声音离线包在手机端和电脑端的成功运行,让预期的时间缩短了,也积累了很多经验。

在工作中,大家通常在一个既定的框架下配合,主动权有限,但这次的预研相对独立,就让技术人员跳出了固有的解决模式,探索出了更多的路径,对未来的工作也颇有助益。

03 

在任务中

一边改变,一边成长

在满足用户真实需求的同时又挖掘了技术的新路径,已经算得上两全其美,但大家觉得收获不止这些。做这个项目之前,很多同事没有接触过障碍人士,总觉得无障碍很难,技术要求高,是专职无障碍团队的事,离自己很遥远。但当他们看到阿卷,听他讲述生活中问询、接打电话的简单场景时,发现竟全是自己熟悉的技术可以解决的问题——那为什么不能立刻做点什么呢?

项目上线前,宣发团队希望搭建H5捐赠页,让更多人可以参与这个项目,平日负责将算法封装打包应用的胡晓天“临危受命”。在此之前,他从未有过web开发经验,但因为实在太想把声音捐赠库建起来了, 整个五一假期都在上网找资料、挨个“问大神”,终于在上线前一天实现了H5页面的基本功能,甚至现学现卖做好了无障碍适配。当项目上线,随着影片的传播,后台涌入了6000多份声音样本,他说“我终于感觉到我的技术是被人真正需要的”

图片 阿卷在使用定制声音和朋友聊天

7月份,阿卷从青海来和我们相聚,很多线上交流发现不了的问题呈现在大家面前——阿卷需要先打字后“发声”,有时刚打完想说的话,大家已经聊到了下个一话题,这在线上打字交流时很难被发现。面对这个仍不够便捷的使用过程,丰煜开始思考,后续的优化该如何降低实施率、提高稳定性。

而负责将阿卷声音上线到小爱通话的鑫然,在听说市场上几十万的定制声音报价后,开始琢磨在现有的技术下,如何将这次为阿卷做声音的过程,变成可复制的流程,让更多障碍人士用上“自己的声音”

图片 小爱通话的鑫然

事实上,只有当一件事从“特殊”、“特例”回归平常,它才开始获得真正的生命,才有可能持续地为需要它的人服务。人的需求,不会因为项目结束而消失,技术的发展也不会停下脚步,我们只想借这个小事停下来想想,技术的发展一定要先抛弃一些“边缘需求”吗?是否可以尝试从“边缘”中,汲取更广阔的视角和思考?

我们也希望这样的预研项目,能让更多用户可以从“提出bug”变成敢于提出对“美好生活”的想象,激励我们不断探索新方案。

因为只要有言语障碍者存在,只要每个人都有面对临时失声的可能,只要人类的沟通还存在这样那样的问题,那么辅助沟通技术(AAC)便永远都有存在和精进的价值,这个价值终将惠及每一个人的所需。声音捐赠,只是一个小小的切口。

真正的学习,总是从真实中来,回到真实中去的。在不断的探索中修正观点、反思自我,而后继续发现新问题,结合新的环境和条件去解决它。我们希望小米的每一位技术人员,都可以从这一过程中,发现技术之用,体悟技术之美。

图片 声音配型捐赠项目成员合影

声音配型捐赠项目使用了小米自研的声音适配算法、超级拟人技术、mittsce推理库等技术,其中“超级拟人语音合成技术适配特殊群体提升无障碍体验”已经申请专利。

技术人文|声音捐赠,一场PBL式技术预研实验相关推荐

  1. 大流行后的数据中心非接触式技术

    冠状病毒大流行和COVID-19后的"新常态"促进了非接触式技术的大规模发展,并使其比以往任何时候都更加无处不在,无论是在数据中心内或外.由于这项技术对数据中心产生了新的和不断增长 ...

  2. 从困在系统的外卖骑手,看初露端倪的赛博朋克式“技术控制”

    从困在系统的外卖骑手,看初露端倪的赛博朋克式"技术控制" 以平台算法左右外卖骑手,赛博朋克式的控制终究会到来吗? 文/王吉伟 (全文约5500字,阅读时间10分钟,建议先收藏再阅读 ...

  3. 警察规范执法案例_警察改革沉浸式技术可以改变执法方式

    警察规范执法案例 Whenever a cop car pulls up beside or behind me while driving, I get nervous. My mouth beco ...

  4. 营销技术(Martech)的持续爆炸式增长,市场总监的工作变得更加艰难

    随着营销技术(Martech)的持续爆炸式增长,保持住新技术的领先地位是一场持久战,再加上除此之外的其他一切因素,市场总监一职的工作变得更加艰难. 新环境下,前沿的市场总监(CMO)思考: " ...

  5. 技术人文 | 米家皮皮灯:无障碍交互新入口

    大家还记得Xiaomi 13 Ultra新品发布会结尾 那个俏皮的身影吗? 我们今天就特别邀请到了这位神秘嘉宾 米家皮皮灯! 让我们用热烈的掌声欢迎它 大家好-我叫米家皮皮灯~ 我不只是个台灯, 还是 ...

  6. 当飞跃式技术遇上无界er,12.28 第12期 MIXLAB上海线下聚会

    不知何时, 凌晨十二点已成习惯: 不知何地, 键盘敲击已是夜的掌控: 不知何人, 路走向了上海的夜: 昏暗的霓虹灯, 能指引前方吗? 我黑色的眼,在黑色的夜里, 能找到我的那束光明吗? 也许无界的黑色 ...

  7. Google工作10年,关于技术、管理和职场生涯的一些感悟

    欢迎关注方志朋的博客,回复"666"获面试宝典 最近读到了一位在 Google 工作10年+的"老"工程师关于技术.管理和职场生涯的感悟. 我看完后觉得很有收获 ...

  8. 沉浸式技术immersive technology

    1. 沉浸式技术immersive technology,也就是我们通常所说的VR(virtual reality) immersive的释义(of a computer display or sys ...

  9. 1.13 南京站 | 2022 开年 Serverless 沉浸式技术实践营开始报名

    云原生浪潮下,Serverless 正在全面落地.继​​​「云原生 Serverless 技术实践营」广州站​火热收官,2022 年,阿里云 Serverless 团队开年巨献,把 "沉浸式 ...

最新文章

  1. 汇聚6年思想变迁:知识图谱报告幻灯片大全
  2. 【C 语言】字符串模型 ( strstr-while 模型 )
  3. 真正的问题应该在我身上……
  4. 《转》常用的正则表达式
  5. python核心编程-第三章-个人笔记
  6. Oracle 单实例 迁移到 RAC 实例 -- 使用导出导入方法
  7. 浅谈数学在c语言编程中的,试论C语言程序设计中算法设计的作用
  8. 计算机五笔字型编码方法,《计算机汉字输入五笔字型打字速成》汉字编码-输入.pdf...
  9. Java中9种常见的CMS GC问题分析与解决
  10. 通信原理第三章:窄带随机过程
  11. 《人生就是一个不断相遇与离别的过程》
  12. 超级电容怎么才能把内阻做小_如何测试超级电容内阻?
  13. 智慧社区运维可视化管理平台主要有哪些功能?
  14. 安装ATOM并使用apm
  15. 深入iOS系统底层之静态库介绍
  16. 命中率 计算机组成原理,计算机组成原理-求命中率.pptx
  17. 水平集LevelSet 分割图像
  18. C++面向对象程序设计-桌面计算器实现
  19. 一些前端开发大牛【持续更新】
  20. PHP实例开发精讲视频课程-张双老师-张双-专题视频课程

热门文章

  1. PHP面试总结(转)
  2. 全新魅思V20正规视频影视系统源码/APP+H5视频影视源码
  3. windows 未能启动 0xC000000F的一个解决方法
  4. 用定时器控制灯的闪烁梯形图_三菱PLC设计报警及灯光闪烁
  5. 山东大学项目实训(十七)—— 微信小程序附件上传、下载、预览、删除
  6. 万得资讯 java开发面经
  7. 深圳德卡D3-U读写卡器windows(Java),linux(C)驱动开发
  8. Apache Calcite教程 -目录
  9. 智能电视是否是一台计算机,【沙发管家】智能电视能不能当电脑显示器?肯定和你想的不一样!...
  10. 你知不知道SaaS必须要直销?