文章目录

  • 网易见外工作台(推荐)
  • Chrome插件 Speechnotes
  • autosub
  • 百度语音识别API
  • IBM的Speech to Text(不推荐)

此文首发于我的Jekyll博客:zhang0peter的个人博客

应该在暑期的时候就有这个想法,想把录音转文字,语音转文字甚至是视频转文字。

因为有些时候有大段的音频内容,但我只需要其中的几分钟,从头开始播放感觉太浪费时间了。

网上有很多收费的解决方案软件,比如讯飞就做的不错,安卓端的APP用起来也很方便,就是贵了点。

然后我看到了这个知乎问题:有能把录音变成文字的软件么? - 知乎

下面按识别准确率和易用性来排序各个软件。

网易见外工作台(推荐)

有人推荐:网易见外工作台

每天可以免费使用2小时,支持视频翻译,语音翻译,语音转写,图片翻译,文档翻译。

上传录音后等待几分钟,识别结果出来。

中文的识别准确率不错:

反正我虽然说我我的转变过程吧,我当时这样的就是因为我在找工作。我在研一研二下个月上半学期的时候要找工作,所以我要去频繁的刷这个算法。因为我那时候发现我要找的是外企吗?外企的那个侧重角度更偏向于算法数据结构,还有一些的系统设计。在当时我的那个项目经历还不是很丰富的时候,你要想给面试官一个眼前一亮或者是印象深刻的一个想法的话,其实算法是一个比较性价比高点的事情。

优点:网页版直接使用,无需编程基础,识别准确率非常高

缺点:每天限制使用2小时

Chrome插件 Speechnotes

有人推荐Chrome插件:Speechnotes 听写记事本 - Chrome 网上应用店

不用注册,在线实时声音转文字。

试了一下,对中文的实时识别效果不错:

要找工作,所以我要去平凡的策略算法.因为我那时候发现我要找的是外企吗,买气的那个特种角度更偏向于算法数据结构一些的系统设计.在当时我的那个项目经历还不是很丰富的时候,你要想给面试官一个眼前一亮或者印象深刻的一个想法的话,其实算法是一个比较轻价比高的一个事情。

优点:直接使用,支持实时语音,对会议记录的帮助很大,准确性高

缺点可以忽略不计

autosub

有人推荐这个库: [NO LONGER MAINTAINED] Command-line utility for auto-generating subtitles for any video file。但这个库的原作者一年前就不维护这个库了,现在由一个国人维护: Command-line utility to transcribe/translate from video/audio/subtitles to subtitles

这个Python库做的是通过Google Web Speech APIvideo or an audio转换成SRT字幕或者json格式的文本。

安装ffmpegautosub

apt install ffmpeg python python-pip git -y
pip install git+https://github.com/BingLingGroup/autosub.git@alpha ffmpeg-normalize

使用示例:

->% autosub -i 54.mp3 -S zh
........
Converting speech regions to short-term fragments.
Converting: 100% |#############################################################################################################################| Time:  0:02:37Sending short-term fragments to Google Speech V2 API and getting result.
Speech-to-Text: 100% |#########################################################################################################################| Time:  0:02:22
Speech language subtitles file created at "42.zh.srt".All works done.

结果如下:

我当时这样的就是因为我在找工作我在严依然而下班上面学期的首要找工作所以,作者我要去平凡的穿着算法,因为我那时候发现我要找的是外企吗,白起的那个特征角度,更偏向于算法数据结构而一切的系统设计,在当时我的那个项目经历还不是很丰富的时候呢,你要想给面试官一个眼前一亮或者印象深刻的一个想法的话其实算法是一个逼,是一个比较现在的高低的事情。

准确性稍差

优点:不限时转换

缺点:需要谷歌,而且准确性没前2个好

百度语音识别API

百度AI开发平台提供免费的语音识别API接口:百度智能云-管理中心

注册后获得

百度提供REST API和完整的SDK,其中REST API 仅支持整段语音识别的模式,即单段语音音频时长不超过60s;完整的SDK识别不限时长。

本来想用linux-C+±SDK,下载:百度AI开放平台-全球领先的人工智能服务平台-百度AI开放平台

但这个SDK只支持g++4.8和x64,无语了。

随后我打算使用Python的REST API,支持pcm, wav, m4a格式音频,而且每段限时1分钟,转换格式:

ffmpy 安装教程参考:anaconda 下安装ffmpeg

安装库:

pip install baidu-aip

Python代码如下:

from aip import AipSpeech
import ffmpy
import os""" 你的 APPID AK SK """
APP_ID = '10540827'
API_KEY = 'PS79KGjFGoUlcuMVY5Lu0srs'
SECRET_KEY = '963de1bda70666389ed7dce7894594ef'client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)# 读取文件
def get_file_content(filePath):with open(filePath, 'rb') as fp:return fp.read()FILENAME = "42.mp3"
# mp3转换为wav
ff = ffmpy.FFmpeg(inputs={FILENAME: None},global_options=['-y'],outputs={'output.wav': '-ar 16000'})
ff.run()
# 把wav文件切割为小块
ff_split = ffmpy.FFmpeg(inputs={'output.wav': None},global_options=['-y'],outputs={'temp_wav%d.wav': '-f segment -segment_time 30 -c copy'})#每段30秒
ff_split.run()text = ''files = [f for f in os.listdir('.') if os.path.isfile(f) and 'temp_wav' in f]
for filename in files:# 识别本地文件result = client.asr(get_file_content(filename), 'wav', 16000, {'dev_pid': 1536,})if 'error_msg' in result or result['err_no'] != 0:print(result)else:print(result['result'][0])text = text + result['result'][0]os.remove(filename)with open('result.txt', 'w') as f:f.write(text)

我进行测试的时候,返回结果不正常,有色情内容,可能有黑客侵入了百度的系统,我就不做评判了。

IBM的Speech to Text(不推荐)

另外一个免费的工具是IBM推出的Speech to Text 工具,也是免费的:Watson Speech to Text - 概述 - 中国 IBM

注册账户后打开页面Speech to Text - IBM Cloud

选择Lite套餐,每个月有500分钟免费的音频转文字套餐,缺点是不能转录100M以上大小的音频(异步调用可以转录最大1G的音频)。

推荐使用Python操作api,直接使用curl返回的结果是json,不利于进一步操作。

安装库:pip install --upgrade ibm-watson

代码如下:

from ibm_watson import SpeechToTextV1
from ibm_cloud_sdk_core.authenticators import IAMAuthenticatorauthenticator = IAMAuthenticator('API')
speech_to_text = SpeechToTextV1(authenticator=authenticator
)
speech_to_text.set_service_url('https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/xxxxxxxx')f = open("42.mp3", "rb")
result = speech_to_text.recognize(audio=f, content_type='audio/mp3', model='zh-CN_NarrowbandModel')
l = result.result['results']
text = ''
for i in l:text = text + i['alternatives'][0]['transcript'] + ','fo = open("audio-text.txt", "w")
fo.write(text)
fo.close()

对中文的识别效果并不好:

反正 我 涮 肉 我 我的 转 亮果厂 吧 ,我 当时 这样的 就是 因为 我的 找工作 我 再 延期 你 而 下的 上面 学习 的 首要 找工作 索要 去 平方米 川 流 ,你 没有 那时候 发现 我要 找 的 是 外企 吗 ,那个 特种 较多 ,更 偏向 与 结构 ,写 的 系统 设计 ,在 当时 我的 那个 项目 经理 还不是 很 丰富 的 时候 ,你 要想 给 面食 馆 一个 眼前 一 亮 或者 印象 深刻 的一个 想法 的话 其实 上海 是一个 比较 性价比 高的 的 事情

IBM和谷歌的接口效果不好的原因是,他们把音频切为一段一段进行识别,并不会根据上下文来调整文字,准确性自然低。

如果不加@符号会报错:

{"code_description": "Bad Request", "code": 400, "error": "Stream was 15 bytes but needs to be at least 100 bytes."
}

如果文件大小超过100M,会报错:

<HTML><HEAD>
<TITLE>Internal Server Error</TITLE>
</HEAD><BODY>
<H1>Internal Server Error - Write</H1>
The server encountered an internal error or misconfiguration and was unable to
complete your request.<P>
Reference #4.c8142017.1580636884.75fa462e
</BODY></HTML>

免费视频转文字-音频转文字软件:网易见外工作台, Speechnotes, autosub, Speech to Text, 百度语音识别相关推荐

  1. macOS如何快速将视频转化为音频mp3(软件全免费)

    Windows系统我们可以找到一大批免费工具实现格式转化,但是苹果的macOS下我们该使用什么工具呢 AppStore有大量的相关App可供下载 AppStore有大量的相关App可供下载 可惜很多软 ...

  2. 每日技巧分享:如何音频转文字?

    随着科技的不断发展,音频转文字已经成为了一项非常常见的技术.在过去,人们需要手动转录音频中的内容,这既费时又费力.但现在,有了音频转文字的技术,我们可以很方便地将音频中的内容转化为文字,这对于许多人来 ...

  3. python调用百度语音搜索_使用 Python 和百度语音识别生成视频字幕

    从视频中提取音频 安装 moviepy pip install moviepy 相关代码: audio_file = work_path + '\\out.wav' video = VideoFile ...

  4. 使用 Python 和百度语音识别生成视频字幕

    文章目录 从视频中提取音频 根据静音对音频分段 使用百度语音识别 获取 Access Token 使用 Raw 数据进行合成 生成字幕 总结 从视频中提取音频 安装 moviepy pip insta ...

  5. 职场新人想知道免费音频转文字软件有哪些?答案在这里

    其实我们在工作中有许多场景都需要借助到音频转文字工具,例如开会做会议纪要.或是与甲方谈合作时等,因为人们通常讲话的语速是比较快的,当下如果我们采用传统的手写记录方式,往往会遗漏一些重要内容,但如果借助 ...

  6. 记一次失败的《将视频中的音频转换成文字》的经历

    视频中的音频如何转换成文字 前言 前段时间我打算做B站林超的视频笔记,突然想到我是否可以用工具将视频的音频转换成文字,或者将视频中的字幕用OCR转化为文字.这样我就不要干巴巴敲内容了.不过因为林超的视 ...

  7. 录音转文字软件有电脑版吗?推荐这几个音频转文字软件

    在日常工作学习中,会遇到需要将录音转文字的情况,比如上课将课堂内容录音,课后整理成笔记,那应该怎么把录音转文字呢?有没有电脑版的录音转文字软件呢?下面就介绍几个可以将音频转文字的软件. 一.灵听录音转 ...

  8. 日语音频转文字怎么做?有什么软件分享的吗

    音频转文字是指将录制的音频文件自动转换成文本的过程.通过音频转文字,可以在较短时间内快速获取大量的文字信息,并进行进一步处理,相比于听写,节约了大量时间和人力成本.将音频转化为文本后,可以进行全文检索 ...

  9. 这3款音频转文字软件,让你轻松整理各种音频内容

    如今在我们的日常中很多时候就离不开音频转文字,例如采访某位人士.做会议记录.上课重点知识记录等等.因为通常我们手动笔记的速度是远远跟不上人讲话的语速的,所以先对内容进行录制,后续再借助工具进行转写,能 ...

最新文章

  1. 2021年AI将改变制造业的6大应用趋势
  2. LeCun:现在还没有真正的AI系统,机器与生物系统差远了
  3. Java 设计模式之外观模式
  4. python一次删除多个键值对_Python单击:多个键值对参数
  5. asp.net文件上传进度条控件(破解版~没有时间限制) 多项自定义
  6. Java线程start()vs run()方法及示例
  7. 有人说“如今聪明的年轻人上班,愚蠢的年轻人创业!”对此大家怎么看?
  8. 数据库设计--名值模式(转)
  9. 观点|通过短生命周期和最小权限原则保护软件供应链安全
  10. 微软开放技术热烈祝贺开源社成立!
  11. UI设计师行业是做什么的?
  12. [常用类]Instant类的使用
  13. 数学公式大全--极限、微分、积分
  14. 信号的宽带和计算机网络的宽带有什么不同,计算机网络(一)带宽理解
  15. tf.variable_scope,reuse复用变量
  16. 服装进销存2022年排行榜,新手小白必看!
  17. BGP(Border Gatreway Protcol)边界网关路由协议
  18. 鸿蒙窍做何解释,终朝睡在鸿蒙窍 一任时人牛马呼
  19. 淘宝宝贝图片批量下载教程
  20. Python中and和or的运算规则,短路计算

热门文章

  1. 玩转移远SC60 Android开发板------(1)LCD
  2. 锐捷服务器虚拟化技术_交换机虚拟化技术.ppt
  3. Espresso的详细使用
  4. 临时手机短信云接收(防骚扰)
  5. 项目集管理PgMP:聚焦战略、收益与治理︱项目管理者联盟联合创始人宣晓锋
  6. Programming Challenges 习题 1.6.7
  7. 1016 Phone Bills (25分)
  8. win10系统自带的日历hover效果
  9. linux c 获取进程p id,详解Linux获取线程的PID(TID、LWP)的几种方式
  10. 百亿级企业级 RPC 框架开源了!