Note: HTML5 识别语音相关的一些资源

2024-04-28 18:55:34

speechRecognition API

Speech API 只支持 Chrome,
http://updates.html5rocks.com/2013/01/Voice-Driven-Web-Apps-Introduction-to-the-Web-Speech-API

speech = new webkitSpeechRecognition
speech.onresult = (event) ->console.log event.results[0][0]speech.lang = 'cmn-Hans-CN'
speech.continous = yes
speech.start()

Chrome 启用语音识别的接口需要每次用户确认
推测是只有 HTTPS 的页面才能保存用户设置, 避免每次重复手动必用
按照 Chromium 的 Issue 里的写的, 设计上就是这样子的
https://code.google.com/p/chromium/issues/detail?id=248987

写了个简单的页面进行测试, 确实 HTTPS 的页面即便刷新权限还是保留的:

<!DOCTYPE html>
<html>
<head><title>Speech</title><script defer src="src/main.js"></script>
</head>
<body>
<div id="entry">Entry</div>
</body>
</html>entry = document.querySelector '#entry'entry.onclick = ->speech = new webkitSpeechRecognitionspeech.start()

关于 HTTPS 权限问题, 下面的文章也涉及讲了一些
http://shapeshed.com/html5-speech-recognition-api/

getUserMedia API 以及 AudioContext

音频内容可以通过 navigator.getUserMedia() 来获取
W3C 有文档但是没法看懂
http://dev.w3.org/2011/webrtc/editor/getusermedia.html

StackOverflow 找到的问题的解答:
http://stackoverflow.com/questions/11979528/record-audio-stream-from-getusermedia/19238153#19238153

网上找到一个随时读取音频, 绘制图表的例子:
http://www.webaudiodemos.appspot.com/AudioRecorder/index.html
https://github.com/cwilso/AudioRecorder

这份代码的结构, 除了 audioplayer.js 其他都和音频处理相关:

index.html
main.js
audioplayer.js
recorderjs/recorder.jsrecorderWorker.js

recorder.js 主要是对另一个 web worker 文件的封装
worker 文件在后台处理音频编解码的工作, 通过消息传回 recorder.js
数据从 main.js 里调用 getUserMedia 取出, 经过 new AudioContext() 处理

Audio 处理的模型

比较复杂, 我无法转述

还行的一篇中文的解释可以看这里:
http://html5online.com.cn/articles/2013030901.html

原文：http://segmentfault.com/a/1190000000418680

justcode.ikeepstuding.com

Note: HTML5 识别语音相关的一些资源相关推荐

行为识别Action Detection概述及资源合集（持续更新...）
随着深度学习技术的发展,以及计算能力的进步(GPU等),现在基于视频的研究领域越来越受到重视.视频与图片最大的不同在于视频还包含了时序上的信息,此外需要的计算量通常也大很多. 这篇主要介绍Action ...
说话人性别识别——语音检测初探
目录一.任务背景和分析二.特征抽取 librosa wave torchaudio 三.数据集 commonvoice [ 中文] 四.模型训练 1.频域信号+LSTM+2DCNN 2.频域信号+ ...
html5视频播放事件相关
html5视频播放事件相关使用: 监听视频播放结束 var myVideo = $("#videoPlayExecute"); // 监听视频播放结束 myVideo[0].ad ...
智能车小白必看，该竞赛相关宝贵经验+资源借鉴总结1
文章目录智能车小白必看,该竞赛相关宝贵经验+资源借鉴总结1 竞赛准备的大体流程做智能车竞赛的宏观建议整合摄像头组的具体建议学习资源链接后记经验参考来源智能车小白必看,该竞赛相关宝贵经验+ ...
Android语音转文字一识别语音
项目地址:https://github.com/zhanlv/VtDemo 讯飞AndroidSDK文档:https://doc.xfyun.cn/msc_android/%E9%A2%84%E5%A ...
深度学习基础入门篇[五]:交叉熵损失函数、MSE、CTC损失适用于字识别语音等序列问题、Balanced L1 Loss适用于目标检测
[深度学习入门到进阶]必看系列,含激活函数.优化策略.损失函数.模型调优.归一化算法.卷积模型.序列模型.预训练模型.对抗神经网络等专栏详细介绍:[深度学习入门到进阶]必看系列,含激活函数.优化策略 ...
最新最全-中文生物医学命名实体识别最新研究论文、资源、数据集、性能整理分享
本资源旨在跟踪中文生物医学自然语言处理的进展,收集整理相关的论文列表和展示现存方法性能. 内容整理自网络,源地址:https://github.com/lingluodlut/Chinese-BioN ...
Android利用RecognizerIntent识别语音并简单实现打电话动作
关于Android利用RecognizerIntent识别语音并简单实现打电话,具体看实现代码如下: package com.example.recognizerintentactivity;impo ...
React 相关的优秀资源
转自: https://github.com/ywwhack/react-journey React 相关的优秀资源以下列出的资源主要来自自己学习react过程中看过的觉的不错的文章.教程,也算是一 ...

最新文章

热门文章