一、注册账号

1. 打开https://console.cloud.google.com
2. 首先要注册google账号,有gmail就可以直接用;
3. 使用云平台服务需要填写一些信息,其中绑定信用卡是关键,最好使用VISA卡。当然google的说法是确定非机器人操作,并不会扣款;

二、新建工程

初次进入时会要求新建工程,如无特殊要求使用默认名称也可以。

三、生成密钥

在调用云平台API时要有身份认证,依据便是密钥。密钥生成以后记得复制下来,后面调用API时要用到。

四、启用API

google云平台包含了相当多的服务,而我们本次的目的是实现将音频识别为文字,所以需要查找并添加speech recognition方法。

  1. 在左侧菜单的“API和服务”下找到“库”,并输入“speech recognition"。

  2. 点击进入后选择启用即可。

五、准备音频文件

speech-to-text API对音频文件的编码格式有具体的要求。

无论是录音还是从影视文件中分离音频出来,都必须按照上述格式选取一种进行编码。

我使用的是开源工具ffmpeg进行音频处理,示例如下:

ffmpeg -i one.mp3 -ss 00:03:00 -t 30 -ac 1 -ar 16000 -f flac one4.flac

命令行解释:

-ss:要处理的起始位置,示例中表示从第3分钟开始处理;

-t:要处理的时长,示例中表示处理30秒的内容;

-ac:单声道mono设置;

-ar:采样率为16000

-f:文件封装格式为flac

参考网址:https://cloud.google.com/speech-to-text/docs/encoding#audio-encodings

六、开通存储并上传文件

文件处理好之后便可以通过预先上传到google云存储上再进行处理。打开左侧“存储”->“浏览器”,选择创建存储分区,会要求输入一个不可重复的名称。创建成功以后就可以上传文件了。上传以后一个重要的步骤便是要设置文件可以公开访问了,否则音频到文本的转换会失败,报访问权限受限错误。

  1. 在右侧选择“修改权限”项;

2. 点击“添加一项”,名称设置为“allUsers",访问权限为读取者。

七、调用API完成转换工作

  1. 首先编辑一个配置json文件,内容如下:

{"config":{"encoding":"FLAC","sampleRateHertz": 16000,"languageCode":"cmn-Hans-CN"},"audio":{"uri":"gs://audio_migu/one4.flac"}
}

2. 使用curl命令行进行API调用的工作,示例如下:

curl -H "Content-Type: application/json" -d @config.json "https://speech.googleapis.com/v1/speech:recognize?key=AIzaSyA7baQsAp"

注意:key值便是第三步生成的密钥值。

等待一段时间后会有结果返回,我是从一段影视文件中截取的30秒内容,从结果来看并不理想,不过也可能是时长不够,仅供参考:

{"results": [{"alternatives": [{"transcript": "柔然发来西文称陛下是符串位同室操戈正山东各方陶华碧想和任泉岗工人背叛","confidence": 0.94101095}]},{"alternatives": [{"transcript": "大成功显然","confidence": 0.74435216}]},{"alternatives": [{"transcript": "电邮他们一个动力臂下原列王子后来进重我大会想来这次对比一下只执行Ruby下能释放高阳王让高阳王对只小雨大雨","confidence": 0.91948324}]}]
}

参考网址:https://cloud.google.com/speech-to-text/docs/basics

基于google云平台实现音频转文字相关推荐

  1. 基于开放式云平台的开源在线评测系统设计与实现

    基于开放式云平台的开源在线评测系统设计与实现 张浩斌 ZHANG Hao-Bin 浙江传媒学院 新媒体学院 浙江省 杭州市 310018 Department of New Media, Zhejia ...

  2. 亚马逊AWS在线系列讲座——基于AWS云平台的高可用应用设计

    设计高可用的应用是架构师的一个重要目标,可是基于云计算平台设计高可用应用与基于传统平台的设计有很多不同.云计算在给架构师带来了很多新的设计挑战的时候,也给带来了很多新的设计理念和可用的服务.怎样在设计 ...

  3. 基于机智云平台的泵站智能巡检系统

    本文是由开发者设计开发的一款泵站智能巡检系统.该系统改变了常规的专人值守的工作模式,实现泵站运行状态的远程智能巡检工作,达到自动监测.故障报警.提前预测等功能. 随着我国水利事业不断发展,泵站在水利调 ...

  4. ZStack实践汇 | 基于ZStack云平台部署FortiGate

    2019年国际知名信息安全峰会RSA Conference在美国旧金山举行,在所有演讲主题中,云安全超过网络安全和数据安全,成为热门关键词第一.ZStack实践汇这次带来的是<基于ZStack云 ...

  5. 基于机智云平台的智能家居系统

    摘要:随着社会的发展,人们对于生活质量的要求越来越高,智能家居作为能够大幅提升人们生活舒适度的一部分,得到了越来越多的人关注,更多方便.实用的智能家居系统急需被提出. 本文设计了一种基于机智云物联网云 ...

  6. 【Microsoft Azure 的1024种玩法】五十九.基于Azure云平台快速搭建GitLab应用实现代码托管

    [简介] GitLab是由GitLab Inc.开发,一款基于Git的完全整合的软体开发平台,以 Git 作为代码管理工具并实现自托管的 Git 项目仓库,本篇文章主要介绍如何在Azure Virtu ...

  7. 【Microsoft Azure 的1024种玩法】六十八.基于Azure云平台使用Azure Virtual machines快速搭建Docker容器

    [简介] Docker 是一个开放源代码软件,主要应用于开发应用.交付应用.运行应用,Docker 可以将应用程序及其依赖项打包到可以在任何 Linux.Windows 或 macOS 计算机上运行的 ...

  8. 基于阿里云平台的esp8266实现空调红外远程控制

    基于阿里云平台的esp8266实现空调红外远程控制 演示视频:https://www.bilibili.com/video/BV1tL411W7Ck 开发环境 概述 开发需要的环境包括:硬件ESP82 ...

  9. 第十四讲:基于3DEXPERIENCE云平台的异构CAD产品的协同开发案例 | 达索系统百世慧

    随着产品复杂程度的提升,市场竞争愈加激烈,基于模型的正向研发已经作为有效的应对手段被广泛接受.但研发流程中仍然存在复杂功能架构定义困难.多方案难以权衡.多系统难以联合仿真,仿真效率低,验证不充分等问题 ...

最新文章

  1. 用hundred造句子_6分以上的人句子长啥样?
  2. js_加入收藏夹功能
  3. 开源云操作系统:填补技术空白 加速商业化进程
  4. 【NLPCC 2020】Call for Participation: Shared Tasks in NLPCC 2020
  5. position:fixed 失效
  6. 简易版的strutsdemo
  7. 国内开源落后?那是不是要做点什么。
  8. 官方开源的安卓客户端
  9. appium自动注册完整脚本
  10. 特别有趣的spyder运行程序
  11. 瑞星微RK3288开发板 (ARM Cortex-A17架构)
  12. 【Vue】微信扫码支付
  13. Python环境搭建之OpenCV
  14. 是不是还在为毕业设计而发愁,看了这篇文章,相信你会感谢我的
  15. 安卓全屏java模拟器如何安装_使用Android 模拟器运行自定义Rom
  16. 【rk3399】AIO-3399J Linux_SDK Recovery按键无法进入Loader模式
  17. ext ajax同步加载数据,ext 的loadmask 与ajax的同步请求水火不容
  18. node 获取项目的根目录
  19. jQuery实现生成二维码,微信长按识别二维码功能
  20. Vue3 使用 百度地图

热门文章

  1. ios隐藏标题栏方式
  2. 如何使用DOS命令行查询端口
  3. Web API - day01【笔记+代码】
  4. VC获取系统进程列表、查找进程、关闭进程
  5. java反序列化漏洞修复方案,看完必懂
  6. 微信小程序 视频弹幕发送
  7. 【安全学习】记一次内网环境渗透
  8. 微信小程序入门解读-③
  9. 零售超市数据分析经典面试题(趋势和指标分析初探)
  10. 大型智能停车场如何实现快速停车?全自动停车场怎么取车?