转载自:量子位

你敢信,这年头只靠一个普通摄像头,就能让二次元老婆实时完成如此灵活的手指舞?

没错,不用穿戴硬件设备,打开电脑摄像头,AI就能让二次元老婆随你实时舞动。

即使没有昂贵传感器加持,摇花手这种高难度动作,照样能轻松拿下。

真人手指再怎么复杂地开合变化,屏幕里的Ta都能完美同步:

双臂前后交替变换都不会识别错误:

这还不算完,更让网友们直呼“离谱”的是,这样的视频动作捕捉AI,只要你有一台电脑+一个RBG摄像头,就能直接抱回家。

不用学编程,也不用多花钱,技术直接就是一个免费可商用

这给网友整得都不敢相信了,赶忙自己上手试了试,结果——

确定是可以摆花手的灵活程度。

这个手抠鼻屎也看得很清楚啊!

好家伙,这岂不是人人都能定制专属3D虚拟主播了?究竟是怎么一回事?

上百个识别位点的3D动捕

正如前面提到的,这是真真正正的视频动捕

像《阿凡达》《指环王》等电影中的许多特效、角色动作设计,都是由动作捕捉来实现。

不过,传统的光学动作捕捉和惯性动作捕捉,都需要通过传感器来记录演员的动作。

因此在片场,需要动捕的演员身上往往佩戴很多设备,大概长这样:

而在开头我们看到,二次元老婆背后的真人主播,身上却无需佩戴任何设备

那它是如何来捕捉动作的呢?

通过AI

与以往需要昂贵传感器支持的光学动捕、惯性动捕不同,近几年兴起的视频动捕主要用到了计算机视觉技术。

它只使用普通的RGB摄像头通过卷积神经网络(CNN)来识别图像中人体的骨骼关键点。

其中,特征提取器会通过分辨率由高到低的过程来提取高级特征,姿势解码器则可以基于检测或回归的方式来估计目标输出、2D/3D关键点位置或3D网络。

基于检测的方法可以生成特征图或热力图,基于回归的方法则可以直接输出坐标位置。

此前剑桥大学开发的人体姿态工具PoseNet就是一个很经典的案例。

它使用端到端学习框架,可以从RGB图像中直接映射出人体的关键骨骼坐标,检测全身17个位点,最终捕捉到人体动作。

如上虚拟主播用到的动捕技术,也是类似于此的神经网络。

特别的是,这套名叫小K直播姬的视频动作捕捉技术,识别位点远超17个,仅上半身就有100多个,覆盖了面部、手部和双臂。

这也是“老婆们”能够活灵活现的关键所在。

要知道,此前许多vTuber直播时,都只有脖子以上可以活动,上半身像是被封印了一般。

而当动捕技术能够捕捉的身体位点越多,可以呈现的效果也就越丰富。

比如借助小K直播姬,vTuber就可以随意扭动身体、摆出各种动作,面部表情也多了很多细节。

而最令人惊叹的手部动作的实现,则有赖于深度信息的引入。之前的卷积神经网络(CNN)学习的关节点只有2D信息,无法使用到3D虚拟形象上,但是小K直播姬自研的AI算法能捕捉3D信息并应用的3D虚拟直播里。

比如“石头”握拳这个动作,在普通摄像头“眼中”,手部位点会出现遮挡、重叠,这时只用2D关键点识别是很难还原真实动作的。

具体而言,小K直播姬的解决方案,是根据摄像头捕捉到的2D图像,来估计每个关节点到镜头之间的距离。

掌握了3D深度信息后,即便摄像头只能拍到手部侧面,想要还原动作也不成问题。

尤其是双臂前后交换这种动作,2D识别很可能无法识别前后的差别,但是3D识别就能让画面呈现明显的立体感。

目前,这种技术已经能做到每秒输出30帧画面。

其实它还能开放到每秒60帧,只是考虑到vTuber一般在直播时还需要开启其他软件,主播的电脑可能会承受不住,所以当下推荐大家开30帧。

看到这里,是不是已经被惊艳到了?

然鹅,这还不是最厉害的。

其实,不只是上半身的动作捕捉,全身动捕现在都能仅靠摄像头完成。

没错,仍旧不需要佩戴任何穿戴设备,只需多个普通的RGB摄像头,就能将真人的全身动作完全还原。

人人都可试玩的那种

效果丝滑自然、只需一台电脑+普通摄像头,还是免 费 的……这确实让人看了很难不心动。

也难怪小K直播姬一登场,惹得网友们直呼:

赶紧收钱,求求了。

要知道,传统的光学动捕、惯性动捕,由于对传感器设备、专业摄影棚等方面的需求,成本始终居高不下。

以今年火出圈的A-SOUL为例,它由字节跳动和乐华联合推出,传闻称其所使用的动捕设备成本高达8位数

而小K直播姬这个免费产品,直接实现了“人人皆可vTuber”。

这不,在小K直播姬公测后,不少人都来一探究竟,公测10日后虚拟主播注册数就已经破万

在这里不仅可以自己捏人,还能导入模型,B站上许多人都晒出了自己的vTuber形象。

知名VUP小希小桃最近大变身,也是因为用了小K直播姬。

会出现一石激起千层浪的现象倒也不稀奇,毕竟市面上这种将视频动捕技术商业化、还面向vTuber的产品,实在是太少了。

团队出身游戏行业

那为什么会是小K直播姬呢?

这个答案要从它的幕后打造者——云舶科技身上找答案。

2017年,出身游戏行业的梅嵩和陈敏联合创立了云舶科技。

其中,梅嵩是原蓝港互动SVP,《王者之剑》系列手游制作人;陈敏是原蓝港互动CTO,核心团队有着16年的研发经验。

凭借自身对游戏动画市场的了解,他们从创业初期就专注于视频动捕技术。

事实上,小K直播姬所采用的所有视频动捕技术,都是由云舶科技自主研发。

起初,他们利用动捕技术将视频直接生成bip、fbx动画文件,大幅提升动画师的作画效率。

后来随着自身技术的不断积累,在2019年,他们便想着将原本离线才能实现的视频动捕技术,升级为实时在线版。

因为出身游戏圈,对二次元市场有着敏感的嗅觉,云舶在2018年就察觉到了虚拟偶像市场在逐渐升温。

所以便将技术落地场景选在了这一领域。

而小K直播姬大受欢迎,除了本身的技术效果吸睛这一原因之外,也同样得益于他们的游戏行业产品背景,认为用户交互体验能提升甚至改变虚拟直播的最终价值。

同时云舶科技对用户也是抱有“有求必应”的态度,如果你想要捕捉云舶科技的技术leader,到官方论坛、用户QQ群里“钓鱼”可能是个不错的选择(手动狗头)。

现在,小K直播姬背后,从一线程序员到公司创始人,全都活跃在这些用户聚集的地方,还常常追着用户沟通交流,只为彻底弄清楚用户对于产品的更多需求。

比如最近即将上线的模型饰品增加自定义调整位置,就是网友们多次向小K提议的功能。

食用指南

OK,说了这么多,如果你也对虚拟直播感兴趣,现在就可以下载试玩一波走起了~

目前,小K直播姬暂只支持Windows系统,1060及以上显卡可实现上半身动捕,其它显卡支持面部捕捉。

进入应用后可以自己捏脸定制形象,也可以选择导入模型。

如果你在体验过程中有了好的idea,也不妨加个群水个论坛,小K直播姬背后的技术leader和一众程序员们都在“虎视眈眈”。

说不定下一个上线功能,就是受你启发的!

推荐阅读

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 一文总结微软研究院Transformer霸榜模型三部曲!

  • Swin Transformer为主干,清华等提出MoBY自监督学习方法,代码已开源

  • 加性注意力机制!清华和MSRA提出Fastformer:又快又好的Transformer新变体!

  • MLP进军下游视觉任务!目标检测与分割领域最新MLP架构研究进展!

  • 周志华教授:如何做研究与写论文?(附完整的PPT全文)

  • 都2021 年了,AI大牛纷纷离职!各家大厂的 AI Lab 现状如何?

  • 常用 Normalization 方法的总结与思考:BN、LN、IN、GN

  • 注意力可以使MLP完全替代CNN吗? 未来有哪些研究方向?

欢迎大家加入DLer-计算机视觉&Transformer群!

大家好,这是计算机视觉&Transformer论文分享群里,群里会第一时间发布最新的Transformer前沿论文解读及交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如Transformer+上交+小明)

太强啦!一个普通摄像头就让二次元老婆“活”了过来!相关推荐

  1. 一个普通摄像头就让二次元老婆“活”了过来,网友:求收费

    鱼羊 明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 你敢信,这年头只靠一个普通摄像头,就能让二次元老婆实时完成如此灵活的手指舞? 没错,不用穿戴硬件设备,打开电脑摄像头,AI就能让二次元 ...

  2. 图片还原去遮挡_斗罗:这届coser太强,动画刚播出两天,战损三哥就被还原了...

    斗罗大陆作为玄机旗下的热门动画,不仅多次登上热搜,引发漫迷热议,还吸引了众位coser的注意力.作品从开播到现在,基本上绝大多数角色都曾被coser还原过. 对于里面的热门角色,例如史莱克七怪,几乎是 ...

  3. 给自己:得失心莫太重,功利心莫太强

    得失心莫太重 得失性重,意味着情绪会非常影响你的注意力,很多事情你难以专注的投入,对于事情的完成无疑是不好的.而且,你可能不知道自己到底喜欢什么,不喜欢什么,因为外在的评价标准对你的影响太大. 功利心 ...

  4. 英伟达的这款GPU太强了!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 今年 3 月 21 日 - 24 日举办的 NVIDIA GTC 2022 大会可谓是亮点十足.NVIDIA ...

  5. java 日历工具_【Java】太强了,这款开源日历工具库堪称神器!

    首页 专栏 javascript 文章详情 0 太强了,这款开源日历工具库堪称神器! Github导航站发布于 今天 02:03 大家好,我是为广大程序员兄弟操碎了心的小编,每天推荐一个小工具/源码, ...

  6. 本科毕业5年后入职985高校担任博导,这位小姐姐太强了!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:募格学术 | 参考资料来源:AdvancedScienceNews.福布斯中国.浙江大学薛晶晶教 ...

  7. 自己动手做一个USB摄像头--转载

    手里有一块AT32的开发板和一个OV2640摄像头模块,因为做智能车模型需要一个摄像头,就想能不能废物利用一下,用这俩做一个即插即用的USB摄像头,能够直接用在树莓派的Linux系统上,而不需要在Li ...

  8. 用STM32+OV2560自己做一个USB摄像头

    手里有一块AT32的开发板和一个OV2640摄像头模块,因为做智能车模型需要一个摄像头,就想能不能废物利用一下,用这俩做一个即插即用的USB摄像头,能够直接用在树莓派的Linux系统上,而不需要在Li ...

  9. 这些图片都是AI画画画出来的,太强了

    张锋老师的分享中看到的,这些图片都是AI画画画出来的,太强了 想之前我买一套 3D 图标的 pack 就是 接近300美金: 现在的AI绘画能通过训练生成固定风格的图标包, 假如你生成某一个细分类别的 ...

最新文章

  1. 总结一下classpath
  2. python第一条入门程序_Python语言函数代码的执行流程
  3. 对HashMap数据结构的理解——加载因子和初始容量
  4. 360网址导航源码5.0源码
  5. mysql crud_如何使用Laravel和MySQL构建您的第一个CRUD应用
  6. 【Elasticsearch】java 客户端 获取 termvectors 词频 统计
  7. 我眼中BA(业务需求分析师)的技能广度和深度
  8. Python给指定文件打上数字签名
  9. php与XML、XSLT、Mysql的结合运用 (转载)
  10. Poj(1182),种类并查集
  11. Python实现井字棋游戏
  12. Linux Mint 20.3更改源及软件安装
  13. Vue单页面应用性能优化实践
  14. MIT线性代数笔记十四讲 正交向量与正交子空间
  15. 毕业设计c语言课程设计,毕业设计_c语言_课程设计.doc
  16. 太上老君的炼丹炉之分布式 Quorum NWR
  17. Hibernate框架学习1
  18. 学生成绩录入及查询(C语言)-PTA
  19. 苹果邮箱登录入口_LOL手游只有一种登录方式怎么办?只有拳头账号登录入口解决方法...
  20. linux12k8s --> 03二进制安装

热门文章

  1. 如何在 Ubuntu Linux 16.04上安装开源的 Discourse 论坛
  2. iis6.0解析漏洞
  3. leetcode解题报告:188 Best Time to Buy and Sell Stock IV
  4. C语言库函数大全及应用实例二
  5. sklearn的train_test_split()各函数参数含义解释(非常全)
  6. datacamp自然语言处理免费教程
  7. 30百度人撑起自动驾驶半壁江山
  8. Recall(召回率)和 sensitivity(灵敏性)是同一个概念,其他无相同点
  9. 数据挖掘学到最后全是数学
  10. C++ 与 JAVA区别