目的:视频 --》音频 --》文本(语音识别)

  • moviepy库可将MP4文件转换为MP3文件

  • pydub库将MP3文件转换为flac文件,但是必须安装FFmpeg

    实际上pydub库仅支持WAV格式文件的转换,FFmpeg可以支持多种格式音频转换
    在官网下载FFmpeg压缩包,解压后将bin文件夹添加至系统环境变量,再安装pydub库即可正常使用
    安装了FFmpeg后,pydub也支持MP4文件转MP3文件
    以下代码是github上的例子:

     import osimport globfrom pydub import AudioSegmentvideo_dir = '/home/johndoe/downloaded_videos/'  # Path where the videos are locatedextension_list = ('*.mp4', '*.flv')os.chdir(video_dir)for extension in extension_list:for video in glob.glob(extension):mp3_filename = os.path.splitext(os.path.basename(video))[0] + '.mp3'AudioSegment.from_file(video).export(mp3_filename, format='mp3')
    
  • speech_recognition库可以进行语音识别,但不支持MP3文件,所以才要先将MP3文件转换为flac文件

    SpeechRecognition支持语音文件类型:
    WAV: 必须是 PCM/LPCM 格式
    AIFF
    AIFF-C
    FLAC: 必须是初始 FLAC 格式;OGG-FLAC 格式不可用

  • SpeechRcognition的识别类(器)有7个

    但只有recognition_sphinx()可与CMU Sphinx 引擎脱机工作, 其他六个都需要连接互联网(调用API)。另外SpeechRecognition 附带 Google Web Speech API 的默认 API 密钥,可直接使用它

  • 我选用了recognition_sphinx,在安装时发现要安装wheel和swig,wheel可以直接pip安装,但是swig不行

    官网下载swig压缩包,解压后添加环境变量即可正常安装sphinx。cmd下可以正常安装,pycharm中依旧报错

  • SpeechRcognition和recognition_sphinx都安装好后,要在SpeechRcognition的安装文件夹下找到pocketsphinx-data文件夹,创建新文件夹“zh-CN”存放中文声学模型、语言模型和字典文件,这样才能进行中文识别。

    pocketsphinx需要安装的中文语言、声学模型
    下载地址:http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/
    下载cmusphinx-zh-cn-5.2.tar.gz并解压,加入zh-CN文件夹,zh_cn.cd_cont_5000文件夹重命名为acoustic-model、zh_cn.lm.bin命名为language-model.lm.bin、zh_cn.dic中dic改为dict格式

但是感觉识别的准确度不太好
使用Google Web Speech API,会报错“由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。”

视频话题识别与跟踪 - demo 【问题总结1.1-视频处理】相关推荐

  1. 视频话题识别与跟踪 - demo 【问题总结1.0-爬虫方面】

    这个项目是实践课正在做的,想法来源于现在的话题识别与跟踪技术,当前的话题识别与跟踪基本是对热点话题文本进行识别与跟踪. 由于短视频的流行,我想做的是对视频话题进行识别与跟踪. 用了一晚上时间写出了de ...

  2. 爱奇艺路香菊:视频人物识别关键技术及其应用|爱奇艺技术沙龙回顾

    主讲人 | 路香菊 爱奇艺科学家 张康 编辑整理 量子位编辑 | 公众号 QbitAI 近日,爱奇艺技术沙龙"多模态视频人物识别的关键技术及应用"成功举办,爱奇艺科学家路香菊出席并 ...

  3. 网络不良视频内容识别技术初探

    网络不良视频内容识别技术初探 网络中的图片.视频及音频等多媒体信息具有内容丰富.感观性强等特点,已经逐渐成为不良信息在互联网上传播所采取的主要方式之一.网络中不良多媒体信息的数量与日俱增,所造成的文化 ...

  4. 使用openCV进行视频人脸识别

    视频人脸识别系列 第一篇 使用openCV进行视频人脸识别 第二篇 使用虹软SDK进行视频人脸识别 第三篇 使用虹软SDK进行视频人脸比对 文章目录 视频人脸识别系列 前言 一.环境搭建 开发环境 配 ...

  5. 使用虹软SDK进行视频人脸识别

    视频人脸识别系列 第一篇 使用openCV进行视频人脸识别 第二篇 使用虹软SDK进行视频人脸识别 第三篇 使用虹软SDK进行视频人脸比对 文章目录 视频人脸识别系列 前言 一.环境依赖 开发环境 申 ...

  6. 文通视频文字识别亮相国际广播电影电视设备展览会

    文通视频文字识别亮相国际广播电影电视设备展览会 (BIRTV2015) 8月26日,第二十四届北京国际广播电影电视设备展览会(BIRTV2015)在北京盛大开幕,作为“亚洲最具影响力的盛会”,4K.媒 ...

  7. python红色的颜色表达式_50行Python代码实现视频中物体颜色识别和跟踪(必须以红色为例)...

    目前计算机视觉(CV)与自然语言处理(NLP)及语音识别并列为人工智能三大热点方向,而计算机视觉中的对象检测(objectdetection)应用非常广泛,比如自动驾驶.视频监控.工业质检.医疗诊断等 ...

  8. 12【mmaction2 行为识别商用级别】X3D复现 demo实现 检测自己的视频 Expanding Architecturesfor Efficient Video Recognition

    github(新版):https://github.com/Whiffe/mmaction2_YF 码云(新版):https://gitee.com/YFwinston/mmaction2_YF.gi ...

  9. 50行Python代码实现视频中物体颜色识别和跟踪(必须以红色为例)

    目前计算机视觉(CV)与自然语言处理(NLP)及语音识别并列为人工智能三大热点方向,而计算机视觉中的对象检测(objectdetection)应用非常广泛,比如自动驾驶.视频监控.工业质检.医疗诊断等 ...

最新文章

  1. Grid R-CNN解读:商汤最新目标检测算法,定位精度超越Faster R-CNN
  2. Apriori算法进行关联分析实战
  3. Composer PHP依赖管理
  4. 计算机网络-后退N帧协议习题思考:数据帧长度范围128~512字节,求信道利用率达到最大,帧序列的比特数至少为多少
  5. Mac 安装多个python环境
  6. Chrome扩展应用Angular state inspector的使用方法
  7. oracle io lost,磁盘IO故障
  8. java gdal postgresql_使用GDAL/OGR操作Postgresql数据库
  9. C#中跨窗体操作(1)--事件
  10. 信息学奥赛一本通 2017:【例4.2】输出偶数
  11. RFM模型+SOM聚类︱离群值筛选问题
  12. TELERIK Reporting 实践
  13. QQ截图自动保存工具分享
  14. Java基础语法三 输入输出
  15. Python借助smote实现不均衡样本数据的上采样和下采样,并可视化展示样本分布
  16. 10月24日杨力祥老师谈话有感[转]
  17. Maven中pom文件常见的标签使用以及介绍
  18. 虚幻4皮肤材质_虚幻4果真被玩坏了?浅谈光影与材质带来的极致体验
  19. 数据中台外部演示脚本
  20. python imshow彩色_matplotlib实现显示伪彩色图像及色度条

热门文章

  1. ChinaSkills-网络系统管理002(国赛所提供完整软件包组)
  2. 计算机基础教师期中工作小结,教师个人小结
  3. 谢孟媛老师英语拼读03(附我备注)
  4. 【植物大战僵尸-3】种植物无CD
  5. 国产音频压缩格式JLM——JLM音频播放
  6. 新闻客户端的三种模式和四种活法
  7. 硅谷归来,七大感触——You Only Live Once
  8. 从苏宁电器到卡巴斯基第11篇:我在苏宁电器当营业员 II
  9. uboot代码解析3:内存管理、控制台、网络、启动函数
  10. 反感料理包的真正原因,正在被“恶心”掩盖