在LiveVideoStackCon2019深圳音视频技术大会前夕,我们邀请到了相芯科技资深图形引擎开发经理蔡锐涛老师接受采访,从个人成长聊到智能图形技术方面的创新与应用,再到相芯科技在虚拟形象上的优势,最后关于5G对于图形技术的升级方向,蔡老师也给出了自己的答案。
文 / 蔡锐涛
整理 / LiveVideoStack
LiveVideoStack:蔡锐涛你好,感谢接受LiveVideoStack的采访,能否向LiveVideoStack的读者简单介绍下自己。
蔡锐涛:我来自杭州相芯科技有限公司,资深图形引擎工程师。硕士,毕业于浙江大学CAD&CG实验室。2016年加入相芯科技,是视频AR特效SDK的技术负责人,主要从事跨平台的2D/3D AR图形引擎的开发工作,对图形图像处理中智能美颜、美肤美型、美体瘦身、滤镜特效、2D/3D贴纸、手势识别、背景分割、人脸特征点定位、三维人脸重建以及人脸表情动画合成、角色物理动画以及真实感渲染等技术有较深入了解,同时也十分关注音视频领域相关技术。

LiveVideoStack:浙江大学CAD&CG作为国家重点实验室,在其中的经历对你有哪些影响?
蔡锐涛:我在本科毕业后到浙大CAD&CG实验室继续硕士阶段的学习,做三维人脸重建以及人脸表情动画合成相关工作,对图形学的认知越来越广,也发现自己未知的东西也越来越多,探索充满挑战和惊喜,也被她深深的吸引。在加入相芯科技后,我主要做的也是与图形引擎开发有关的工作,相芯科技做的视频AR特效SDK已经服务于500+ B端客户,包括百度、阿里等,产品与音视频结合后可以服务于众多行业,包括社交、直播、短视频、在线教育、广告营销等。浙大CAD&CG实验室的经历让我对图形技术有了更深层次的理解,为之后的工作打下了坚实的基础,在不断的探索过程中也更加坚定了自己对图形学的热爱。
LiveVideoStack:对图形图像处理技术感兴趣的开发者,你有没有推荐的书籍?
蔡锐涛:关于计算机图形学基础,可以看看《计算机图形学》《数字图像处理》。入门实践可以看看Khronos小组编写的王锐教授等译著的红宝书《OpenGL编程指南》。细分方向上,几何处理方面,推荐看看计算几何Computational Geometry: Algorithms and Applications, Third Edition.。渲染上有两部经典的书Real-Time Rendering 以及Physically BasedRendering。游戏引擎架构入门有本不错的书籍Game Engine Architecture,Third Edition,由Milo大神译著《游戏引擎架构》。当然只学习书本知识是不够的,要多到实际中去,图形学在很多方向上,对工程能力要求也较高,建议多多“造轮子”,加深理论理解,提升工程能力。此外,多关注学术前沿,计算机图形学会议SIGGRAPH,SIGGRAPH Asia等,会议有很多courses也是不错的学习和实践的地方。
LiveVideoStack:目前,相芯科技在智能图形技术方面具体有哪些创新与应用?
蔡锐涛:基于相芯科技的“数字化身驱动”和“数字化身创建”两大核心技术,相芯科技已经形成了较为成熟的四大解决方案,即:视频AR特效、虚拟形象自动生成、AI虚拟助手解决方案和AI虚拟主播解决方案。
视频AR特效相信大家已经很熟悉了,就不做赘述了。虚拟形象自动生成技术仅需一张自拍照片,即可同步生成个性化3D卡通形象,这项个人形象技术,可以轻松接入到各种VR/AR的应用中去,应用前景较为成熟与广阔。而AI虚拟助手能够实现与用户面对面互动的可视化人机交互体验,企业用户可选择通用形象或者通过定制具有品牌IP的声音、形象获得专属的智能助手,无论是嘴型、表情还是声音,均已达到流畅生动的交互效果。AI虚拟主播解决方案目前比较多的运用在报业和电视台,只需要输入文字或音频,就能快速生成具备精确口型、丰富面部表情以及动作的AI虚拟主播播报视频,帮助需求方提高新闻内容生产效率,降低制作成本。
LiveVideoStack:目前市场上也有其他做AI虚拟主播和AI虚拟助手的厂商,相芯科技相比其他厂商有哪些核心优势?
蔡锐涛:形象方面是我们比较大的优势。我们具备业内最全面的形象类型,支持2.5D真人、3D卡通人物、3D卡通动物、3D高精度仿真人的形象定制,同时支持半身和全身定制,来满足不同平台IP定制化的需求。
不仅如此,我们的形象具备丰富的情绪表情和动作姿态。相芯科技自主研发的语音动画合成技术(STA)将人工智能与计算机图形学相结合,当计算机获取语音或者文本中的内容信息后,STA即可通过计算机图形学合成技术对虚拟形象的面部进行驱动并融合,实现极具逼真感的表情还原。我们也会根据客户需求,提供包含形象、情绪、动作等多维度形象配置服务,同时兼容市面上的大部分语音厂商,致力于打造更完美的AI虚拟形象。
LiveVideoStack:随着5G等网络基础设施的完善,网络带宽更大,网络传输延迟更低,在这个过程中你觉得图形图像处理技术有哪些重要的升级方向?
蔡锐涛:5G的到来使得很多数据密集型低时延要求的领域都会有新的机会,云计算,边缘计算,边云协同,物联网,自动驾驶,远程医疗,虚拟现实,超高清视频等等。在音视频领域,最直接的结果是图像清晰度的提升,另外数据量上也会较4G高出一两个数量级。图像清晰度的提升,一方面可以直接由硬件设备升级支持,另一方面,整个互联网上已经积累了海量的中低清图像视频,那么,图像超分辨率,会有很好的应用场景,并且处理海量数据带来的延迟是个蛮大的挑战,这里充满机会。同时,图形分辨率提升,带宽也急剧加大,高质量的图像压缩算法也有施展拳脚的地方。此外呢,个人觉得VR虚拟现实,AR增强现实,数字化身也会有很好的机会,这三个不同的领域,有个共性,需要高质量的真实感渲染。在当前终端上,由于传输带宽过小,大部分的逻辑计算和图像渲染都要依赖于本地的硬件水平,增加了用户的使用成本,并且很难达到实时的要求。如果采用端云结合模式,云端高质量渲染,云端AI计算,终端显示,可以有效降低用户使用成本,小于5ms的时延能极大提升体验,这其中也有不少机会。数字化身也是我们相芯主攻方向之一。

LiveVideoStack 秋季招聘

LiveVideoStack正在招募编辑/记者/运营,与全球顶尖多媒体技术专家和LiveVideoStack年轻的伙伴一起,推动多媒体技术生态发展。同时,也欢迎你利用业余时间、远程参与内容生产。了解岗位信息请在BOSS直聘上搜索“LiveVideoStack”,或通过微信“Tony_Bao_”与主编包研交流。

相芯科技蔡锐涛:AI虚拟形象——没有最完美,只有更完美相关推荐

  1. 3d 自动生成物体_相芯科技首秀SIGGRAPH,3D形象自动生成火了

    作为全球影响最广.规模最大的CG展示.学术研讨会,SIGGRAPH汇集了全球众多顶尖的计算机图形技术厂商以及影视行业的领军人物,分享最尖端的前沿技术.今年在美国洛杉矶会展中心,SIGGRAPH2019 ...

  2. 相芯科技美妆SDK测评:妆容丰富 效果自然 支持自定义

    美妆SDK想必大家都不陌生,得益于人们对美无止境的追求,各大企业纷纷接入这一功能,让客户可以随时体验在线换妆,而不必"劳脸伤财".但因人脸检测与跟踪技术的门槛不低,目前市面上的美妆 ...

  3. 相芯科技助力华为Mate20Pro玩转3D Live Emoji

    杭州2018年10月17日电 /美通社/ -- 北京时间10月16日晚9点,华为Mate 20系列发布会在英国伦敦召开,期间正式发布了华为Mate 20.Mate 20 Pro.Mate 20 X以及 ...

  4. 全国多少学校开设计算机专业,为何全国只有5所学校开设这一专业?相芯科技为你揭秘...

    "国内音视频人才缺口巨大." 12 月 15 日,由LiveVideoStack主办,相芯科技.七牛云.即构等多方参与的多媒体开发技术沙龙在成都圆满落幕.会上,LiveVideoS ...

  5. 相芯科技品牌全面升级:创造更真实的数字世界!

    10 月 19 日,相芯科技带着全新品牌主张:"创造更真实的数字世界",并以全新视觉形象.定位和愿景正式宣布品牌全面升级! 五年蜕变,相芯科技迈入全新阶段 相芯科技自 2016 年 ...

  6. 【金猿人物展】有米云CTO蔡锐涛:DaaS崛起,企业应用数据呈现出场景化、智能化、一体化趋势...

    蔡锐涛 本文由有米科技合伙人.有米云CTO蔡锐涛撰写并投递参与"数据猿年度金猿策划活动--2022大数据产业趋势人物榜单及奖项"评选. 数据智能产业创新服务媒体 --聚焦数智 · ...

  7. 如何使用相芯科技美妆SDK实现美妆(Android)

    1.美妆功能介绍 相芯SDK提供23种内置美妆妆容,如减龄,邻家女孩,欧美等多样妆容风格.支持口红.腮红. 眉毛.眼影. 眼线.睫毛.美瞳.粉底.眼影.高光等15大维度,多种搭配,轻松实现变妆. 2. ...

  8. 手机摄像头驱动_打开手机摄像头,就能实现3D全身动捕,相芯发布虚拟形象全身驱动技术...

    当提起3D全身动捕时,大家脑海中的第一反应基本上都是在好莱坞电影里,演员工作时常身穿安装有传感器的紧身衣,脸上也布满了传感器,让现实生活中不存在的虚拟角色可以活灵活现地出现在荧屏上.当然一整套动作捕捉 ...

  9. 清华校友陈怡然、杨越组队进军AI芯片市场,成立苹芯科技,最新Pre-A轮斩获近千万美元...

    来源:量子位 随着最新一轮融资的曝光,由清华校友杨越博士.陈怡然教授主导创立的苹芯科技,引起资本界和产业界的关注. 在最新一轮Pre-A轮融资中,其融资金额达到近千万美元,吸引了红点中国.红杉中国等多 ...

最新文章

  1. golang rpc的两种调用方法
  2. Mysql Federated Server 示例
  3. java major version: 51,Unsupported major.minor version 51.0的原因与解决办法
  4. 自己实现spring核心功能 三
  5. rds数据加密_如何保障云上数据安全?一文详解云原生全链路加密
  6. 《草原安魂曲》《自由意志》及其他我喜欢的电影海报
  7. 没有弃用 Sun 拥抱 HP/Linux,亚马逊或已倒闭!
  8. c++用数组初始化向量_用C ++初始化向量
  9. CreateFile和WriteFile
  10. 软件工程师的核心竞争力是什么
  11. 互联网经典商战TOP 10
  12. 人工智能与具体应用领域如何进行有效的结合
  13. 32位乘法器和除法器
  14. kazam使用_尝试使用2种免费的桌面录制工具:SimpleScreenRecorder和Kazam
  15. nvcc与nvidia
  16. 数据仓库与元数据管理
  17. Window 电脑C盘清理
  18. 常用docker镜像启动了解
  19. C#下ECDsa签名、验签
  20. windows系统下的 pdf2html (pdf 转html)开源工具 pdf2htmlEX 使用方法

热门文章

  1. eclipse取消空格补全
  2. win10 家庭版 CredSSP加密Oracle修正 设置方法
  3. 数楼梯——恶心的高精斐波那契数列
  4. gradient渐变IE兼容处理
  5. 安卓开源项目周报0215
  6. 扩展GridView控件——为内容项添加拖放及分组功能
  7. 关于CKeditor的个性应用设置 转
  8. CodeForces - 1543D1 RPD and Rap Sheet (Easy Version)(异或+交互)
  9. 牛客多校3 - Sort the Strings Revision(笛卡尔树+分治)
  10. 【数学基础】矩阵的特征向量、特征值及其含义