如何让你画里的鱼,游进海里?
- 这篇专访将聚焦于计算机视觉应用 -
△ 王铮
→ 关键词
→ 计算机视觉应用、交互艺术、设计智造
→ 王铮
● 计算机视觉应用,主要是研究哪些方面?
● 王铮:用专业术语来解释的话,计算机视觉应用是:在理解图像/视频内容的基础上,协助人们日常的生产活动。
实际上,计算机视觉是对真实世界的感知,是一个运行在电子元器件上的算法尝试去认知真实世界中的事物。认知在计算机的眼里是一个寻找一种物体区别于其他物体的纹理特征并逐步向语义概念抽象的过程。
△ 图自Google
● 对计算机视觉感兴趣的原因?
● 王铮:大二开始接触计算机视觉(现在是复旦在读博士),就被这个领域吸引了。想了解计算机是怎么“理解”图像的。
而现在的计算机分析识别过程是一个黑箱,比如动作识别,计算机只会告诉你它认为看到了前面有行人穿马路的概率有多大,我期望计算机能告诉我们它的思考过程,这在自动驾驶等需要视觉分析的系统做决策时是很重要的。
Make media accessible to all. 是我的理想。
“media”是我想要研究的内容,然后我希望它以更善意、友好的、可互动的方式给需要的人带来便利,尤其是视障人士。
● 目前有没有做过这方面的尝试?
● 王铮:有的。所有人其实都希望能被平等相待,视障人士也同样如此,他们比我们想的更希望能自食其力。
我(一位视障人士)做了记号,还是经常会把他们弄混……
钟点工跟我说了保质期,有时候心里明明记得,到了礼拜天又忘记了。所以现在我干脆让她不要买了,反正我也分不清放着浪费,还是不吃了。
调研反馈
基于此,我们选择为视障人士解决“查看”食品保质期作为研究切入口。
我们用OCR(光学字符识别)算法包装上的保质期,用手机将信息写入廉价且可以重复使用的RFID(射频电子标签)中,再把标签贴到物品包装上,之后我们只需要用手机靠近射频标签就可以得到相关信息的语音播报。以此最终实现信息向视障人士的无障碍“传达”。
通过类似的工作原理,我们还可以为其识别更多的商品信息。
△ OCR动图,自ElementAI
△ 用手机靠近射频标签
● 计算机视觉的学习内容有哪些?
● 王铮:传统计算机视觉的内容包括人工设计的局部特征提取方法。
深度学习出现后,计算机视觉开始增加了可以识别的物体种类,增加了视觉问答,图像生成等任务。局部特征是像素明暗变化形成的线段或者拐角,在一小块图像内统计边角的数量抽象成特征向量,多个特征向量打包做分类相当于物体识别。
深度学习兴起后,这套传统视觉特征工程被神经网络模型替换,计算机能准确识别的物体种类数量大大增加,更是出现了视觉问答,图像生成等更接近智能的任务。
△ 图自google
● 在实现计算机视觉应用方面,近年最大的进步之处在哪些步骤或环节?
● 王铮:应该是三维重建。较之二维图像的难度,在于二维只有XY方向上的关系,而没有Z方向上的关系,就丢失了深度信息。
● 具体一些来说,应该怎样进行三维重建?
● 王铮:从方法上来讲,三维重建要学习算法(深度神经网络模型):
首先,每一个二维图像都有事先采集好的三维模型;
其次,利用数学中的投影方法,将二维图像中的物体局部与三维模型中的物体局部进行匹配,而匹配的目的是让算法知道二维图像的结构特征在三维的空间中长什么样子;
最后,通过对各种物体的匹配方式的学习,算法知道了如何将二维结构变成相对应的三维形状。
简单说来:
可以把以上过程想象成捏橡皮泥,算法学习完后,给计算机 “看” 一张图,计算机就“捏出”一个三维模型。
a:用户画一个正面图
b:模型输出一个三维形状
c:用户利用三维形状的侧面画一个侧视图
d、e:模型输出更新后的三维形状
△ 这是从图像恢复到三维模型的一个例子
△ 图自teamlab官网
再比如,这是在Teamlab island活动上,一位小朋友在纸上画画,他画完一条鱼,走到投影屏幕旁边,画好的鱼就 “跳进” 海里了。
这对正处于对世界充满好奇的青少年孩子来说,极具吸引力!
而我想做的事情,大概也是期望能如此 “有趣” 吧,这也是我选择计算机视觉应用进行博士深造的根本原因。
● 你对计算机视觉应用,未来的期待是什么?
● 王铮:比如把计算机视觉和增强现实结合、把计算机视觉和机器人结合。
△ RoboCup中使用的“达尔文”机器人
计算机视觉目前还是一个被动的系统,本科期间,我在RoboCup比赛的经历也使得我更想制造更能主动反馈的视觉系统,而这需要融合更多的传感和显示技术。
RoboCup的目标是2050年足球机器人能赢下人类冠军,而我只是希望十年后:机器人能陪小朋友玩。
我对自己的要求很低:
活在世上,无非想要明白些道理,遇见些有趣的事。
倘能如我所愿,我的一生就算成功。
王铮
-END-
受访:王铮
联系:laichunfang0508
编辑:chunfang、hubin
设计:京東、Truely He、Pauline
● 预约采访通道
Mixlab 社群通道
如何让你画里的鱼,游进海里?相关推荐
- 米开朗基罗在他的画里,可是暗藏了不少'男男kiss'的镜头,要不要来了解下?
几乎每个基督徒,都会相信'最后的审判': 世界末日那天,天使们会吹响号角,唤醒死去的人们, ▼ 被埋葬的尸体们,会纷纷从坟墓里爬出来, ▼ 爬啊爬,爬到自带光芒的耶稣身旁, 开始听他最后的宣判: ▼ ...
- 三生三世十里桃花手游怎么用电脑玩 三生三世十里桃花模拟器教程
<三生三世十里桃花>手游是一款拥有仙侠玄幻风格的RPG手游,根据同名小说改编而成,延续了小说精彩剧情和人物角色系统,采用唯美古风,塑造出震撼的场景和个性的人,为我们构筑出一个美轮美奂的唯美 ...
- 海塘里的鱼几乎唾手可得
疲倦已极的斑尾塍鹬将头和长长的喙埋进背部的羽毛里,它们缩起一只脚,在缓缓退却的潮水中休息,强劲的海风将它们斑驳的羽毛吹得凌乱不堪,几只灰斑鸻和翻石鹬也混杂在斑尾塍鹬大集群中寻找安全感.数量和集体智慧或 ...
- 五律《江南秋怀》江清行画里
五律<江南秋怀>江清行画里,晓色隐长空.古道凝秋意,凉亭别蝶红.寻芳思月路,滴翠累梧桐.杳杳云垂晚,扁舟载梦匆. 七律/随笔幽幽桂雨小园香,白社秋临落叶凉.颜巷风梳芳草瑟,朱阑露滴翠痕黄. ...
- ETAS ES581.4 ETAS ES582.1我就这样,醉在西溪的诗与画里
我就这样,醉在西溪的诗与画里 雀鸟的鸣叫,穿透晨曦,唤醒西溪的沉睡:着一袭白色长裙,扎着半松的发髻,就这样踏上一场寻觅的旅途. 行走在回忆的蜿蜒曲折里,穿过竹喧深处,越过草木葱荣,绕过一汪又一汪碧绿, ...
- 火影忍者ol手游服务器注册上限怎么办,火影忍者ol手游进不去是怎么办 火影忍者ol手游上不去原因详解...
火影忍者ol手游进不去是怎么办?为什么火影忍者手游突然进不去了?部分玩家因为游戏突然登不上了而烦恼不已,又不知道什么原因,下面九游网小编就为各位玩家带来了火影忍者ol手游上不去原因介绍,希望能够帮助到 ...
- 剑侠情缘三显示连接服务器超时,剑侠情缘手游进不去怎么办?重连黑屏解决办法攻略...
剑侠情缘手游于今日4月20日开启了安卓限号测试,不过目前好多玩家反馈,游戏无法进入,出现各种问题,不能体验到该游戏.对于游戏进不去到底该怎么办呢?下面小编为大家带来剑侠情缘手游进不去怎么办?重连黑屏解 ...
- qq飞车登陆服务器无响应,qq飞车手游进不去怎么回事 为什么进不去游戏
问:qq飞车手游进不去怎么回事?为什么进不去游戏? 答:qq飞车手游进不去有三种情况,第一种是玩家自己的网络出现了问题,这种情况最好解决换一个网络就可以了.第二种就是服务器问题,如果是这种问题的话,玩 ...
- 御龙在天手游怎么不显示服务器了,御龙在天手游进不去怎么办 闪退原因及解决办法...
御龙在天手游进不去怎么办?闪退原因及解决办法.御龙在天手游今天迎来了安卓平台的不删档不限号测试(游戏出现打不开的问题,下面就让小编为大家介绍一下出现这类问题的原因及解决办法吧! 1.服务器问题 游戏早 ...
最新文章
- 强化学习70年演进:从精确动态规划到基于模型
- 《LeetCode力扣练习》第46题 全排列 Java
- Java 基本功之(一)入门知识点
- 1.2 检测和测量图像中的圆形目标
- mysql安装8.013_Mysql 8.0.13 安装
- python对象底层原理_Python字符串对象实现原理详解
- 让MySql支持Emoji表情(MySQL中4字节utf8字符保存方法)
- Web后端学习笔记Flask(3)模板 实例
- no response after clicking clone in github desktop
- java对象与json字符串的互相转换
- thinkphp5--文章发布后台管理系统
- java ajax框架_ajax框架之 zk -demo1
- StructLayout(LayoutKind.Sequential)(转)
- C++内嵌汇编 教程1
- 启动计算机键盘没反应,电脑键盘个别键没反应怎么办
- 论文研读-多目标自适应memetic算法
- 魔兽世界服务器显示新,《魔兽世界》怀旧服再开新服,背后的原因竟然是!
- 不用/,*,mod乘、除、取模运算的除法
- HP打印机 定时打印激活打印机(针对某些打印机需要激活才能打印的情况)
- 穆利堂推荐 新周刊,当下中国的12中孤单