ASR项目实战-架构设计
ASR项目实战-架构设计
一般而言,业务诉求作为架构设计的输入。
需求清单
对于语音识别产品而言,需满足的需求,举例如下:
功能需求
- 文件转写。
- 长文件转写,时长大于60秒,小于X小时,X可以指定为5。
- 短文件转写,时长小于60秒。
- 实时语音识别。
- 长语音识别,时长大于60秒,小于Y小时,Y可以指定为5。
- 短语音识别,时长小于60秒。
- 支持多个语种。
- 其它功能需求,比如:
- 前处理
- 支持多种音频文件格式。
- 支持多种采样率和位深。
- 支持去回声和抗噪。
- 支持在音频文件中处理多个声道。
- 中间处理
- 支持VAD。
- 支持区分音频文件中的多个讲话人。
- 支持输出文本对应的时间偏移。
- 支持使用热词提高字准率。
- 后处理
- 支持输出标点符号。
- 支持输出拼音类语言的大、小写。
- 支持数字、符号的归一化处理。
- 前处理
非功能需求
- 集成多个合作伙伴。
- 云云对接,即将请求转发给合作伙伴开放在公网的API服务,通过公网API访问的形式集成其语音识别能力。
- 集成软件包,即将合作伙伴的语音识别服务部署在相同的机房内,通过内网API访问的方式集成其语音识别能力。
- 集成算法库,集成合作伙伴的语音识别能力。
- 集成算法模型,基于相同的算法库,合作伙伴提供模型,进而集成其语音识别能力。
- 控制并发路数。
- 通过接口接入的基础设施,限制并发TPS。
- 基于当前可用的并发路数,限制可以接入的请求数量。
- 基于各个应用的业务推广情况,定义并发路数的最低、最高配额,保证基本的并发路数。
- 基于各个应用的业务实际情况,定义调用量的最高配额,控制调用量。
- 支持扩容。
- 通过扩容硬件的方式,增加服务能力。
- 针对某具体应用的实际情况,通过扩容,满足其业务诉求。
- 针对某具体业务场景的实际情况,通过扩容,满足其业务诉求。
技术指标
- 文件转写场景下的时延类指标,比如
- 转写比,即端到端处理时长与语音文件时长的比值。这个指标不是越小越好,需结合投入的硬件成本综合考虑,定义符合预期的指标目标值。
- 语音识别场景下的时延类指标,比如
- 首字时延
- 尾字时延
- 蹦字时延
- 模型文件的大小,影响如下:
- 决定了软件包版本构建的时间、安装服务的时间、启动服务的时间,是影响版本交付效率的直观因素。
- 模型文件占用的空间越大,则加载模型后,进程占用的内存空间则越大。这对硬件规格和技术方案、部署方案有直接的影响。
- 一定载荷下可提供的并发路数。
运营类需求
- 支持记录具体应用使用语音识别服务的业务调用量。
- 支持基于调用量,对具体应用进行计费。
运维类需求
- 提供日志,比如:
- 提供业务调试日志。
- 提供接口访问日志。
- 提供监控能力。
- 提供对基础设施的监控,比如CPU使用率、内存使用率、硬盘使用率等,以及必要的告警。
- 提供对业务组件的监控,比如进程是否存在,进程的CPU、内存使用率等,以及必要的告警。
- 提供对关键业务指标的监控,比如当前各服务实例在用、可用的并发路数,各业务可用、在用的并发路数等。
安全类需求
- 在云服务API层面增加保护,比如:
- 提供鉴权能力。
- 提供参数校验能力。
- 抵御DOS攻击的能力。
- 对用户数据的管理,包括但不限于:
- 使用安全通道传输用户数据。
- 使用加密方式保存用户数据。
- 允许用户删除数据。
- 允许用户指定数据的保存周期。
- 用户未提供数据保存周期时,系统支持自动删除。
架构方案
基于前述举例列出的需求,整体方案中包括如下组件:
- 业务类组件
- 接入网关
- 安全网关
- 业务网关
- 算法服务
- 支撑类组件
- 运维服务
- 运营服务
- 开发者服务
接入网关
主要职责有:
- 对外提供安全协议的请求通道,比如HTTPS。
- 限制业务请求的速率。
- 基于协议规则的请求流控。
安全网关
主要的职责是对外部发来的请求进行鉴权,拦截非法请求。
当鉴权通过时,补充必要的数据字段,比如应用标识等。
业务网关
主要的职责有:
- 对请求消息中的字段,进行校验,从而拦截非法请求。
- 依据请求消息,依据一定的业务规则,选择合适的算法服务来提供服务。
- 依据一定的业务规则,从指定的算法服务的集群中,挑选一个实例来提供服务。
- 记录业务调用量。
- 记录计费数据。
- 记录必要的运维数据。
- 记录必要的调试日志。
- 基于业务规则的请求流控。
算法服务
算法服务,提供语音识别的基本能力。
依据与合作伙伴的协作方式,算法服务包含如下类型:
- 云云集成,请求转发至合作伙伴开放在公网的API服务。
- 软件包集成,合作伙伴的软件包和自有的组件部署在相同的基础设施上,算法服务与其通过内网API的方式集成。
- 算法库集成,使用JNI方式,算法服务集成合作伙伴提供的算法库文件。
- 算法模型集成,算法服务集成模型,提供服务。
运维管理服务
主要职责是供运维人员管理、分析业务系统运行情况,包含的内容比较广,比如:
- 软件仓库
- 部署管理
- 配置管理
- 运维数据管理
- 采集系统
- 离线监控系统
- 在线监控系统
- 告警系统
运营服务
主要职责是供产品、运营人员分析业务运行现状,比如:
- 运营数据管理
- 采集系统
- 报表系统
- 告警系统
开发者服务
主要职责是供开发者管理业务的运行情况,比如:
- 订阅服务
- 计费报表
技术决策点
划分业务组件中各个组件的职责时,存在一些决策点,对设计方案存在影响,因此需要深入考虑。
语音识别过程可以划分为前、中、后三阶段的处理操作,依据前述架构方案,结合业务场景,需要思考这三个阶段在分别哪个业务组件上交付。
关于前处理
对于实时语音识别,假如使用手机作为录音设备,则可以限定录制时使用的音频文件格式、采样频率、位深、声道的数量,去回声和搞噪可以交给录音设备来完成,因此不涉及复杂的前处理。
对于文件转写,则无法限定音频数据文件的录制设备、文件格式、采样频率、位深、声道数量、录制环境等,因此需要支持前处理。相关的前处理特性,可能的实现位置有业务网关或者算法服务。
假如前处理在业务网关组件上实现,则下载文件、提取音频时长、记录计费数据、记录计量数据、基于业务规则的请求流控等可以一并实现。前处理的音频文件,需要将上传至公共存储,由算法服务下载。
本方案的优点:
- 在业务网关层面可以实现文件有效性的检查,避免将非法文件传递至算法服务,浪费算法服务器的算力。
- 在业务网关层面实现基于业务规则的请求流控,提前拦截非法请求,避免浪费算法服务的算力。
本方案的缺点:
- 业务网关和算法服务需要通过存储服务来传递音频文件,算法服务多了一次下载文件的操作。
假如前处理在算法服务上实现,业务网关组件只需转发请求,而下载文件、提取音频时长、记录计费数据、记录计量数据、基于业务规则的请求流控等特性均需要在算法服务来实现。
本方案的优点:
- 只涉及一次下载文件的操作。
本方案的缺点:
- 算法服务组件的数量比较多,假如音频文件保存在公网的存储服务上,则均需要开放外网访问权限。
- 对于文件有效性的检查延迟到了算法服务组件,恶意的请求可能会占用算法服务的算力资源。
- 基于业务规则的请求流控延迟到了算法服务组件,同样占用了算法服务的算力资源。
关于提取音频文件中音频数据的时长,处理音频文件中多个声道,目前比较简单的方案是使用开源软件FFmpeg来实现。但这款软件存在一些问题,比如:
- License非商业友好。
- 处理音频文件时,比较消耗CPU。
- 为支持某些特定的音频格式时,需要增加一些额外的编码、解码库,编译FFmpeg的过程比较曲折。此外,音频格式涉及到的开源软件,其License可能非商业友好。此外,部分项目的代码比较旧,长期无人维护,遇到问题时会比较尴尬。
- 偶尔会不稳定,对音频文件执行操作时会失败,但事后使用相同的音频文件重现问题时,发现问题无法复现。
关于后处理
语音识别的结果中没有标点符号,作为书面形式阅读时会增加很多障碍,不同的句读可能会产生不同的理解,从而出现不必要的歧义。对于中文而言,这个现象尤其严重。因此为了提升可读性,需要在语音识别输出的结果进行处理,增加必要的标点符号,比如句号、逗号、探号、问号等。
对于拼音类语言,比如英语、法语等,相同的单词在不同场景下,其大小写形式可能会不同,比如the President和the president,前者指代现总统,而后者仅为泛指。为了提升可读性,需要对语音识别输出的结果进行处理,增加合理的大、小写形式。
对于数字、单位等词汇,语音识别的结果中均表示为文字,与通常使用的书面表达形式不同,阅读体验比较差,因此有必要依据一定的规则或者场景将其还原为常见的表达形式,改善阅读体验。
针对上述三个特性,决策点有:
- 实现方案,使用机器学习模型实现,还是使用代码基于一定的规则来实现。
- 实现位置,在业务网关实现,还是在算法服务实现。
ASR项目实战-架构设计相关推荐
- 人脸识别完整项目实战(3):项目系统架构设计
一.前言 本文是<人脸识别完整项目实战>系列博文第1部分,第2节<项目系统架构设计>,本章内容系统介绍:人脸系统系统的项目架构设计,包括:业务架构.技术架构.应用架构和数据架构 ...
- ASR项目实战-交付团队的分工
ASR项目实战-交付团队的分工 对于通常的软件项目,参与角色,比如可以有用户,消费者,产品团队,研发团队(研发团队包括开发和测试),运营团队,运维团队,管理团队. 通常认为,用户,负责购买服务的群体, ...
- ASR项目实战-决策点
ASR项目实战-决策点 针对语音识别的产品,分别记录设计.开发过程中的决策点. 实时语音识别 对于实时语音识别来说,客户端和服务端之间实时交换语音数据和识别的结果. 客户端在启动识别时,即开始发送语音 ...
- 1.项目体系架构设计(电商推荐系统)
文章目录 一.项目系统架构 二.项目数据流程 三.数据源解析 1.商品数据表 -- Product 2.用户评分表 -- Rating 四.数据模型(表结构) 五.统计推荐模块 1.历史热门商品统计 ...
- ASR项目实战-产品分析
ASR项目实战-产品分析 分析Google.讯飞.百度.阿里.QQ.搜狗等大厂的ASR服务,可以罗列出一款ASR服务所需要具备的能力. 产品分类 ASR云服务产品,从用户体验.时效性.音频时长,可以划 ...
- ASR项目实战-从源码开始构建Kaldi
ASR项目实战-从源码开始构建Kaldi 准备工作 安装构建时依赖的基础软件 软件清单如下: bzip2 python3 automake libtool cmake gcc g++ gfortran ...
- 项目体系架构设计——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(四)
系列文章目录 初识推荐系统--基于Spark平台的协同过滤实时电影推荐系统项目系列博客(一) 利用用户行为数据--基于Spark平台的协同过滤实时电影推荐系统项目系列博客(二) 项目主要效果展示--基 ...
- WCF项目的架构设计
本文将介绍以WCF开发项目为主的架构设计,主要从类库的分类和代码的结构. 下面将以一个WCF实例做具体的介绍.此项目底层是一个Windows Service,WCF服务Hosted在此Windows ...
- php项目分布式架构设计,【转】互联网项目架构之基于服务的分布式架构
以前一直找一篇通俗易懂的文章,今天终于找到了,记录下. 文章来源:赵小忠 文章地址:https://www.cnblogs.com/1315925303zxz/p/6371550.html 随着互联网 ...
最新文章
- php python 函数互相翻译的网站
- 10 | 递归:如何用三行代码找到“最终推荐人”?
- 文华软件怎样测试交易系统的收益,交易系统的测试与评估报告
- C语言关键字之inline
- Mysql如何清空数据库中所有的表数据
- 国美理直气壮的停发员工工资
- PO、VO、POJO、DTO、DAO、Service包等常见包的理解
- 简述算法和程序的区别并举例说明
- 程序猿 C语言入门 颈椎,【计时器小工具】70行代码让你远离颈椎病,致所有的程序猿们...
- Java Swing
- c语言dsp编程论坛,针对Ti的DSP C语言编程
- Python 之selenium+phantomJS斗鱼抓取案例
- App内测神器之蒲公英
- 怎样才能设计一个“易用性”好的网站?
- 游戏搜索引擎 - 6617.com 内测,欢迎大家点评 :)
- 实战项目:设计实现一个流程编排框架(分析)
- 为什么牛逼的程序员都不用 “ ! = null “ 做判空?
- Unity3d的安装
- OpenStack七年之痒
- RXBUS的简单使用
热门文章
- GOTC 大会预告 | Apache Pulsar PMC 成员翟佳:Apache Pulsar 架构设计与原理
- 缓存击穿和雪崩常用解决方案
- Arun Murthy谈Apache YARN
- TabLayout 的使用 更改下划线的长度,和一个奇葩的问题
- 第二天学习笔记:(MDN HTML学习、web安全策略与常见攻击、语义化)
- 2021年安全员-C证(陕西省)考试试卷及安全员-C证(陕西省)模拟试题
- 勘误《新概念》III
- 能净化空气的PC电源,配置也很不错,艾湃电竞AP-550Ti体验
- 【IntelliJ IDEA】idea多次重装打不开的解决办法
- 不知道怎么去视频水印,看看这些怎样去水印教程