点击我爱计算机视觉标星,更快获取CVML新技术


昨天CVPR 论文终于提供下载:

重磅!CVPR 2019 论文终于全面开放下载!附百度云链接

看到一篇CVPR 2019 论文《Learning Individual Styles of Conversational Gesture》,通过语音数据识别说话人手势,觉得蛮有意思。

下面这张图道出了作者们做的事情:

最下面一排是语音信号,中间是通过语音信号生成的手势数据,最上面是通过得到的手势数据合成的人物视频。

看起来还真是那么回事~

以下是作者信息:

作者来自UC伯克利、Zebra Medical Vision、MIT(简直就是黑科技集中营)。

手势识别是人机交互中的重要技术,以往的方案中可以使用深度相机数据识别,也可以使用RGB图像视频识别,对于前者Intel貌似一直做的很不错,对于后者现在最知名的开源库就是OpenPose了(OpenCV手部关键点检测(手势识别)代码示例)。

手势毕竟应该是个视觉问题,不通过视觉信号能识别手势吗?

在现实的人类沟通中,手势和说话人语音往往是强相关的,手势信号是人类正常沟通的一部分。这在演讲中表现最为明显。

通过人类说话的视频数据建立语音与手势的关系,然后直接通过语音生成手势,这看起来是个很大胆的想法。

为了避免人工标注,论文作者们直接使用OpenPose对人物说话的视频进行姿态估计,得到手和臂的手势数据。

虽然这种弱监督信息有一些标注错误,但在这个问题上已经够用了。

然后作者们的做法也非常简单粗暴,直接使用语音数据UNet解码结构生成手势姿态中关键点的位置。

如下图:

输入数据是一段语音频谱数据(2D log-mel spectrogram),通过全卷积网络和1D UNet结构,生成手势数据,通过L1 回归Loss监督学习。

另外作者发现只用L1回归损失是不够的,容易回归到手势的均值状态,作者又加了一个判别器D,用于判别生成的手势像不像真的。

跟其他方法比起来,本文算法在数值结果上是很优秀的:

视觉比较也很自然(请点击查看大图):

大家可以通过视频感受下:

视频中将手势合成人物动作的技术来自:

C. Chan, S. Ginosar, T. Zhou, and A. A. Efros. Everybody Dance Now. ArXiv e-prints, Aug. 2018.

当然这一技术很有用,比如可以直接用其控制虚拟主持人的手势,让直播更自然。

作者称代码将开源,而且创建的数据也提供下载。

论文地址:

https://arxiv.org/abs/1906.04160v1

项目地址:

http://people.eecs.berkeley.edu/~shiry/speech2gesture/

代码地址:

https://github.com/amirbar/speech2gesture

技术在造假成真的路上走的越来越远了。。。


专业交流群

关注最新最前沿姿态估计、手势识别技术,欢迎加入52CV专业交流群,扫码添加CV君拉你入群(如你已为CV君好友,请直接私信,不必重复添加),

(请务必注明:手势):

喜欢在QQ交流的童鞋可以加52CV官方QQ群:702781905。

(不会时时在线,如果没能及时通过还请见谅)


长按关注我爱计算机视觉

UC伯克利黑科技:用语音数据预测说话人手势相关推荐

  1. 天猫再出黑科技,大数据推彩瞳趋势定制

    9月24日,天猫&时尚芭莎联合主办的<喵眼看世界·瞳色幻想>是一场以色彩为主题,彩色隐形眼镜为载体,结合喵眼元素进行天马行空的幻想,,落地山水美术馆的创新型互动艺术展.时尚芭莎则对 ...

  2. 专访UC伯克利人工智能教授:机器学习的最强敌人是谁?

    https://www.toutiao.com/a6687758538732732940/ 在本篇文章中,我们采访到了加州大学伯克利分校人工智能学院院长Alberto Todeschini,就&quo ...

  3. 互联网让中国零售业弯道超车:近创新比黑科技重要

    近日阿里巴巴与零售巨头百联集团达成战略合作,这只是阿里巴巴布局线下实体商业的一个常规动作,正如之前投资银泰百货.苏宁.三江和河马生鲜一样.每一次战略合作或者投资的故事大同小异,其本质均是新零售:数据. ...

  4. 蛛网时代:敲黑板!数据可视化是黑科技却不是神器!

    双11的热度已经慢慢过去,现在坐在办公室里我最期待的是快递小哥哥的身影.双11俨然成为了国人必过的一个节日,也许多年之后这个节日会成为法定假日也不一定呢!最近,小编接到了一个客户的需求,却让小编有点哭 ...

  5. 神“脑补”!只要一段话,就知道你的说话手势 | UC伯克利

    乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 防不胜防!现在, AI只需要听你的声音,就能知道你说话手势了. 这项"脑补力"Max的新研究,来自UC伯克利大学等机构 ...

  6. Yann LeCun遭三位UC伯克利教授连怼:双重职位多重危害

    郭一璞 发自 凹非寺  量子位 报道 | 公众号 QbitAI 高校教授同时兼任企业研究人员,这在目前的AI圈已经不是什么新闻了.不过,最近就有3位UC伯克利的教授站出来反对:  "有些 ...

  7. 一只火鸡带你了解大数据预测(经典)

    纽约大学特聘教授纳西姆·尼古拉斯·塔勒布有一本代表性的著作<黑天鹅>,认为未来发生的事情是纯随机的,人类要是根据过去的经验去对未来的事情进行预测,那是完全不靠谱的,正如书名所表示的:在发现 ...

  8. 基于MFCC的语音数据特征提取概述

    1. 概述 语音是人类之间沟通交流的最直接也是最快捷方便的一种手段,而实现人类与计算机之间畅通无阻的语音交流,一直是人类追求的一个梦想. 伴随着移动智能设备的普及,各家移动设备的厂家也开始在自家的设备 ...

  9. ISCSLP 2022 | AccentSpeech—从众包数据中学习口音来构建目标说话人的口音语音合成系统

    构建带口音的语音合成系统可以增加语音合成的多样性和趣味性.然而不是每个人都能说多种口音.为了实现口音与说话人音色的自由组合,借助迁移学习技术,为没有口音数据的说话人构建口音合成系统,是实现" ...

最新文章

  1. winfrom。布局
  2. linux中mysql如何删除库,Linux环境下MySQL基础命令(2)----查看、创建、删除库和表...
  3. NPoco for MySQL 配置
  4. Qt中的QByteArray和自定义结构体之间的相互转换
  5. 面向对象之反射、包装、(定制)
  6. 算法学习总结(八):计数排序
  7. 转:XMPP协议、MQTT协议、HTTP协议、CoAP协议的基本比较
  8. 自学python能找到工作吗-自学Python好找工作吗?
  9. Xcode不能真机调试运行
  10. 每日一九度之 题目1091:棋盘游戏
  11. ip切换及时刷新交换机的arp表方法
  12. 使用plsql导出数据库表中数据
  13. 【学习笔记】单总线协议的典型代表:DS18B20
  14. 中国土地交易数据库:300w数据中国土地高频交易数据2000-2022
  15. SimpleFOC之ESP32(二)—— 开环控制
  16. C++中strcmp的用法
  17. 大数据产业驱动智慧家庭发展
  18. 原生 hadoop安装
  19. pta习题:退休日期推算
  20. 解决SSH连接不上的问题

热门文章

  1. 字符串匹配——枚举法
  2. 用友服务器显示禁用,包头用友 U6 运行时提示端口4630 被禁用 或者 1433端口不通...
  3. python使用pip安装包_python的安装包pip命令基本用法
  4. java复制文件夹_java实现拷贝一个文件夹,里面存在目录和文件,使用文件创建和文件流...
  5. powerquery加载pdf_PowerQuery技巧之自学教程
  6. 三星鸿蒙手机,被忽视的对手:三星的自研系统,已全球第一,成华为鸿蒙对手...
  7. 深度学习stride_深度强化学习成名作——DQN
  8. eclipse java web乱码_JAVA and JAVA WEB with TOMCAT and ECLIPSE 学习过程中遇到的字符乱码问题及解决方法汇总(随时补充)...
  9. java 模块开发_java模块化开发
  10. 孪生神经网络_基于局部和全局孪生网络的鲁棒的人脸跟踪