AI产品经理需了解的技术知识:语音识别技术(2)
AI产品经理需了解的技术知识:语音识别技术(2)
https://blog.csdn.net/zhangbijun1230/article/details/81232256
本文章主要介绍了语音识别技术语的算法包括动态时间调整、隐马尔可夫模型、BP神经网络,目的是帮助PM了解语音技术方面的知识,有助于语音类相关产品的设计~
语音信号是一种短时平稳信号,即时变的,十分复杂,同时也携带了很多有用信息,包括个人信息、语义等。因此特征参数提取的准确率,直接影响语音识别结果的好坏。
信号的预处理就是为了保障特征参数提取准确性的前期工作,这部分的介绍见上一篇文章 :AI产品经理需了解的技术知识:语音识别技术(1)。
语音识别算法
语音识别系统的本质是模式识别系统,而语音识别的过程就是根据模式匹配原则,按照一定的相似度法则,使未知的模型和模型库中的某一个参考模型获得最大匹配度的过程。
常见的语音识别算法主要有:模版匹配法,如动态时间规整(DTW);随机模型法,如隐马尔可夫模型(HMM);基于人工神经网络(ANN)的算法。
1. 动态时间规整
在孤立词识别中,最为简单有效的方法就是采用DTW算法,这个方法解决了相同词但发音长短不同时的匹配问题。
首先,孤立词是什么?
我个人的理解就像是自然语言处理中的分词,即把一段文字划分为若干单词去模板库匹配。区别在于:一个是文字,一个是语音。
文字是依据句法、语法、语义划分,而语音则是通过端点检测算法确定语音的起点和终点(端点检测算法见上一篇文章)。
其次,得到孤立词后,会出现一个问题,如A同学“你好”中的“你”字发音拖长,B同学“再见”的“再”字的发音很短。那么该如何匹配到参考裤中的“你好”和“再见”呢?
这个例子就好比下图(手手工示意图,大家看看就好):
很显然,对于说话速度差异的限制,不符合实际语音的发展情况,需要一种更加符合实际情况的语音时间规整方法。DTW就是通过把时间序列进行延伸和错单,来计算两个时间序列之间的相似性。
2. 隐马尔可夫模型(HMM)
隐马尔可夫模型是一种统计模型,在语音识别、自然语言处理问题广泛应用。语音信号可看作一个可观察序列,微观上它在足够小时间段上的特性近似于稳定,宏观上可看作一次从相对稳定的某一特性过渡到另一特性,如:A->B->C->D。
假设产生一个语音时,分别经历4个状态,分别是A- >B->B-C-D-A-D。所有的状态可以看作是x=状态,y=时间的矩阵Q[4][6],通过概率算法,计算出在4096(4*4*4*4*4*4)种情况中的最佳路径ABBCDAD。
3. 人工神经网络(ANN)
人工神经网络是计算智能中的重要部分之一,是有大量简单的基本元件-神经元相互连接,模拟人的大脑神经处理信息的方式,进行信息并行处理和非线性变换的复杂网络系统。
基于ANN的语音识别系统通常由神经元、训练算法、网络结构三大要素构成,具有高速的信息处理能力,并且有着较强的适应和自动调节能力,在训练过程中能不断调整自身的参数权值和拓扑结构,这也是AI产品与传统互联网产品的的区别。
下面以BP神经网路为例:
(1)什么是BP神经网络?
人工神经元是对人或者其他生物的神经元细胞的若干基本特性的抽象和模拟,生物神经元主要由细胞体、树突、轴突组成,树突和轴突负责传入和传出信息,兴奋性的冲动沿着树突抵达细胞体,在细胞膜上累积形成兴奋性电位。
相反,抑制性冲动到达细胞膜则形成抑制性电位,两个电位进行累加,若代数和超过阈值,则神经元产生冲动。
模仿生物神经元产生冲动的过程,可以建立一个人工神经元数学模型,包括输入向量、输出值、激发函数、阈值、权值(神经元与其他神经元的连接强度)。神经元则是一个计算和储存单元,将计算结果暂存并传递给下一个神经元。
(2)BP神经网络是如何学习的?
BP神经网络的学习过程由两部分组成,分别是正向传播和反向传播。
- 正向传播时,输入信息从输入层经处理后传向输出层,每一层神经元只对下一层的神经元的状态有影响。如果在输出层得不到期望的输出,则进入反向传播。
- 反向传播时,误差信号从输入层向输入层传播并沿途调整各层间的权值。经过不断的迭代,最后将误差尽可能降低。
如图所示:
人工神经网络通常是针对静态模式设计的,语音信号是一个时变信号,而且它的时变特性也是语音理解的一个重要特征——由于发音快慢节奏不一样,发音时音节长短不会完全相同。
而大多数神经网络输入结构是固定的,采用BP算法,识别率并不是很高,通常需要将人工神经额网络做一些必要的修正。
AI产品经理需了解的技术知识:语音识别技术(2)相关推荐
- AI产品经理需了解的技术知识:语音识别技术(1)
AI产品经理需了解的技术知识:语音识别技术(1) https://blog.csdn.net/zhangbijun1230/article/details/81231921 一.语音识别的发展 20世 ...
- AI产品经理需要了解的数据知识:余弦相似度
AI产品经理需要了解的数据知识:余弦相似度 本文概括介绍了余弦相似度是什么.如何应用以及案例说明,目的是希望我们产品经理在设计相关跟相似度功能或是利用相似性功能解决某一业务的场景时能利用上余弦相似度, ...
- 车主因眼睛小被自动驾驶误判?——智能座舱CV体验的经典corner case剖析 by 资深AI产品经理@方舟...
前言:最近两天,"车主因眼睛小被自动驾驶误判"冲上热搜.顺势破圈,而咱们"AI产品经理大本营"微信群里,不仅有很多PM在激烈讨论,还有一位智能座舱CV领域的资深 ...
- 最新AI产品经理求职动态:卡年龄、卡学历,这么卷,怎么办?
最近一些AI产品经理和我交流求职经历,让我感觉今年求职市场有一个明显变化:企业开始非常严格的卡年龄.卡学历,甚至不太讲情面,真的是太卷了(人才,供大于求)... 目录 3个可能原因 2个求职问题 1个 ...
- 职场不设限:真正的AI产品经理太少了……
开局一张图 关注AI的朋友们好-本期古牧君邀请来自宇宙条的资深AI产品经理鸡翅姐(见上图),针对AI产品经理这个岗位畅聊并总结成文,作为<职场不设限>系列的首篇,希望能给大家的职业路径增加 ...
- AI产品经理能力模型的重点素质:人文素养和灵魂境界
本文是我第一次正式详述"人文素养和灵魂境界"对于AI产品经理的意义到底在哪里,摘自<AI产品经理的实操手册(2021版)>的1.1.3.3节. 在AI产品经理的能力模型 ...
- 简历推荐_26位AI产品经理
现在行业内,各家AI公司都很希望招募"来之能战"的AI产品经理,今天,介绍26位近期看机会的AI产品经理的亮点信息,获取简历方式,详见后文. 一.这26位AI产品经理的整体情况 1 ...
- 重磅发布:《AI产品经理的实操手册(2023版)》
今天是咱们社群"AI产品经理大本营"六周年活动的最后一天,正式发布这份大家和我都非常期待的重磅干货--<AI产品经理的实操手册(2023版)> 上周发布的"A ...
- AIGC/ChatGPT这么火,相关的AI产品岗,真的有变多吗?_最新AI产品经理求职动态(28)...
最近咱们社群的"AI产品经理求职季"活动里,有些特别的发现和感触,近期求职的AI产品经理或AI企业需求方,值得看看-- 目录 一.最近AIGC/ChatGPT这么火,相关的AI产 ...
最新文章
- mysql null排在最后面
- Spark精华问答:DataFrame与RDD的主要区别在哪?
- linux: chmod,chown命令详解
- Spring框架 注解
- mysql json函数_Mysql里的JSON系列操作函数
- iOS 两种易混淆的存储路径
- ROS 教程之 network:多台计算机之间网络通信(2)
- 爬虫学习笔记(1)---简单的爬取百度贴吧
- Java基础之数组合并,详细讲解
- 程序员的未来之路[转]
- 如何防止SP利用欠费进行套利
- Java白盒测试三角形函数_白盒测试实验报告-三角形形状-山东大学
- 报表服务器组件,开发者手册概述:Power BI 报表服务器
- 百度 android 市场占有率,百度数据:11Q1中国Android手机市场研究
- 网页防篡改技术发展趋势
- 2.2数据选择与分析及折线图柱状图Selecting_data_and_analysis_part1
- brand.php dnfire.cn_火灾报警系统品牌
- LeetCode(38) Count and Say
- 开关电源的几种工作模式
- 计算机软件开发文档编写指南