点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

AI 科技评论报道

编辑 | 陈大鑫

想象一下,一位计算神经科学家正在引导数百只小老鼠在迷宫运动,还用上了最新技术对实验对象的神经元进行成像。小白鼠们没兜几圈,TB级的视频数据和大脑数据就产生了。

接下来,科学家还要把庞杂的图像信息转化成深度语义,计算数据之间的关系,做出关于行为如何被大脑控制的假设,并进行下一轮的验证工作。

不仅仅是科研领域,随着科技的高速发展,智能城市、电子商务等跟民生相关的社会场景都需要进行海量动态数据的预处理。这个时候,就需要用到能够梳理数据关系的通用型基础设施。

在刚结束的数据管理国际顶会 ACM SIGMOD/PODS(Special Interest Group on Management of Data)上,一款从非结构化数据中挖掘隐式语义的神器——向量数据库Milvus,就因强大的底层功能而被评委会相中。

论文链接:

https://www.cs.purdue.edu/homes/csjgwang/pubs/SIGMOD21_Milvus.pdf

Milvus由创业公司Zilliz研发,是顶级开源基金会 Linux 基金会旗下 Al 子基金LF Al的毕业项目,旨在降低非结构化数据搜索的应用门槛,并在不同部署环境下提供一致的使用体验。

SIGMOD'21 评审委员对 Milvus 给予了极高评价:“此项研究成果突破性地实现了向量数据管理的通用系统设计,在满足动态数据实时搜索的同时,也能满足实际业务中多样化的查询需求。作为一项开源技术,Milvus 被广泛应用于人工智能前沿领域,其试验性能大幅超越同类向量检索系统,使得这篇论文极具启发性和借鉴意义。”

能造神器者,必有相应心法,顺应天时、由心造境。AI 科技评论 采访了负责此次论文工作的易小萌博士,一探Milvus团队的武功究竟。

1

天时:AI时代,万物都在矩阵中

1、AI 科技评论:当初为何想到要做Milvus项目? 

Milvus 项目是2018年启动的,当时我们观察到两个趋势:

一方面,非结构化数据将成为信息的主要载体。

另一方面,AI 模型将会是提取非结构化数据内在信息的关键计算手段。现在看起来,这两方面趋势已经越来越明显了。

全世界每天有几十万PB的非结构化数据被产生出来,这些数据经过AI模型提取了丰富的信息(也就是人们常说的embedding),但却没有一个底层基础软件能够有效管理和分析这些embedding数据。

AI 模型提取出的这些 embedding 都是向量化的表示,Milvus所管理的数据都是向量,进行的运算也基本是向量和矩阵运算。我最喜欢的一个比喻是黑客帝国中的母体,本质是一个巨大的向量和矩阵的集合,作为基座支撑上面各类形态的AI。

2、AI 科技评论:Milvus属于数据库和AI两个领域的交叉工作,有遇到什么新问题吗?

数据库和AI两个领域都挺不好搞的。数据库领域很多工作,比如一致性协议,属于那种 'you know everything but nothing works'。AI的话正好反过来,'everything works but nobody knows why'。我们在这个交叉领域就很不一样了,'nothing works and nobody knows why'。

发这篇论文主要是想把我们在非结构化数据分析与搜索领域摸到的一些东西分享出来,也是想开个坑,拉更多学术界和业界的朋友一起到这个坑里来探索,因为这个领域很新也很重要。

3、AI 科技评论:Milvus团队正在结合AI做更深的探索,能否谈谈对于这个交叉领域的期待?

在我们团队里有一句话,万物皆可embedding。不过现在通过不同的AI模型所获得的是一些相互独立的 embedding 空间,是一系列信息孤岛,这就好像wikipedia的每个词条都是用一种不同的语言书写的。给出每个词条的语义解释能够帮助解决不少问题,但如果能将不同词条的语义解释关联起来,将会产生巨大的应用价值。我们非常期待能打通这些embedding空间的相关技术,也许是一些中间层的embedding空间,也许是一些中间层的神经网络模型。

落实到具体的场景应用上,我们期待看到综合场景下搜索技术的突破。近几年,随着多模态学习技术的日益发展,同一事物在不同模态之间信息的关联和互补关系得到了深入的研究。相比而言,目前的数据搜索模式相对单一,通常只能较好的解决单一模态下的数据搜索问题,而如何对不同模态的数据进行高效准确的关联搜索仍然是一个开放性的问题。解决这一问题需要在算法、模型和系统层面上进行深入的探索和分析。

2

心法:开源,做有意义的系统工作

4、AI 科技评论:Milvus团队多位骨干都有学术界的经历,为何会来到一个start-up?

包括我在内的多位研发团队成员都出自华中科技大学金海教授的实验室,我在读博期间对金海教授讲的“做有意义的系统工作”印象特别深刻。有意义的系统工作在学术界或工业界其实没有很明显的边界,同时工业界近年来在研究领域的优势愈发明显,依靠规模与场景两个高地构建了很多优秀的系统,比如谷歌的BigTable、GFS、MapReduce。

早些年,很多领域都是学术界走在前面,但是在计算机系统领域有很多反转的现象,不少经典的方向都是工业界先开坑,然后学术界在这个基础上不断完善。在学校的时候老师常常对我们说,让自己快速成长最好的办法就是要跳出自己的“舒适区”。以我为例,逐渐熟悉了高校里面做研究的方式之后,就希望能够到企业对自己进行新一轮的锤炼。

5、AI 科技评论:能否展开谈谈“做有意义的系统工作”?

我在学校的研究方向比较偏理论,研究的内容通常是在某些特定场景,在一定的假设条件下如何优雅地解决一个问题。在企业里面做事天然会从实际意义出发,相比优雅,我们的解决方法更需要的是健壮。所以,我们所说的“做有意义的系统工作”,并不是指从 paper 产生paper,而是从实际的系统中抽象出来一些问题,包括系统设计的框架、具体的优化方案、最终目标,解决之后又重新应用回系统中去。

读博那会儿,觉得最缺的是好问题。现在做Milvus这样的开源基础软件,研究和研发同时被用户和社区推着快速迭代,值得解决的问题太多了。很多时候,要抑制自己做研究的冲动,把资源投到项目的快速迭代上面去,这样才能维护好问题的源泉,也就是用户和社区。从这个角度看,我觉得开源社区在未来一定会和学术界有更多类似的合作实践。

6、AI 科技评论:开源社区和研究课题之间具体是怎样的关系?

开源这套理念经过了几波发展,从早期的 “半宗教” 性质到现在,融入了很多商业上的探索。最直接的就是开源之后,与用户和技术人员的接触面积大幅提高。好的项目,从某种层面看,对好的问题处于垄断地位。开源有助于把技术和场景两方面的因素更加有效地糅合起来,不断碰撞,产生化学反应。开源社区和学术界,主要也是围绕这些 “好的问题”进行互补。

目前,我们在思考如何更高效地开源 “问题”。在社区的活动形式上也在做新的尝试,希望把更多 “好的问题” 暴露给学术界。

7、AI 科技评论:总结一下,Milvus技术团队做项目的路径和方法是什么?

首先,要充分了解过去。 几乎所有的创新性工作都是基于前人的基础完成的,就算是在比较新的领域里面也是一样。我们需要对现有技术有充分的了解,在此基础之上审视我们所遇到的问题,然后再寻找可能的解决方案。

然后,需要有途径去看未来。 总体而言,研究类工作是面向未来的。未来场景是什么样子、上层应用对底层系统有哪些需求、痛点和难点是什么,这些都是需要仔细探讨认真推断的。要做到这一点,我们认为最好的方法就是探索场景。只有从深度和广度两个方面扩展对场景的理解,才能清楚各个场景下对系统能力最普遍最迫切的需求是什么,从而以场景为约束去塑造系统。

最后,不要造了锤子找钉子。 开发基础软件有时候就像是造锤子。如果等锤子造好了之后再去根据锤子的形状去找能敲的钉子,也许就会发现其实有很多的钉子不太适合用这个锤子来敲。这个时候再想要调整锤子的形状就比较困难了。我们应该避免为了做系统而做系统的模式,而应该看准实际场景中的问题。只有尝试解决有价值的问题,才能产生有价值的系统工作。

点个在看 paper不断!

万物皆可embedding,AI 应用神器 Milvus 登顶数据库顶会 SIGMOD相关推荐

  1. 数据与广告系列十九:推荐召回与广告LookAlike,万物皆可Embedding

    作者·黄崇远 『数据虫巢』 全文共1000字 题图ssyer.com " 万物皆可Embedding,开启全面数据化的时代." 正式打算写Embedding相关话题之前,有突然想到 ...

  2. Nature:万物皆可“编程”,结构材料也能实现数据存储,华人科学家一作

    晗峰 发自 凹非寺  量子位 报道 | 公众号 QbitAI 最新的Nature研究向我们展示了,原来直接原来用力学的方法也能存储信息,这打破了机械装置和数字存储终端存在的界限. 熟悉计算机编程的朋友 ...

  3. d3设置line长度_万物皆可Embedding之LINE算法解读

    需要论文的朋友可以后台私信我获取 前言 上一篇文章给大家带来了Graph Embedding技术中的代表算法Deepwalk,今天给大家介绍graph embedding又一代表算法--LINE,LI ...

  4. Node2Vec:万物皆可Embedding

    <Node2vec: Scalable Feature Learning for Networks> KDD 2016,图神经网络经典必读第一篇,平衡同质性和结构性 . 2021年年初,图 ...

  5. 云栖大会,未来万物皆是计算机?

    今天,云计算正在创造越来越多的终端新形态.手机不再只是通信,是一款手中的计算机:汽车不再只求"马力",需要比拼"算力",是一台"四轮计算机" ...

  6. quicklook不能预览office_万物皆可格!给空格键施加神奇魔法的神器软件—快速预览工具QuicklookPC软件...

    大家好,我是元力.今天给大家带来一款电脑端使用的超级神奇的软件.只需要选中文件,然后点击空格键,即可预览文件. 支持大部分格式,比如word.excel.pdf.图片.视频甚至图片的源文件等等.真正实 ...

  7. AI解救“工具人”:RPA+AI,让万物皆可自动化

    郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI 小A,HR一枚. 作为一个典型基层HR,他每天很大一部分工作,是在处理文档手续: 办入职.离职.休假申请.五险一金,扫描各类文件,在系统里 ...

  8. 5G让万物皆AI成为可能,高通敲开分布式AI大门

    伴随着5G时代的到来,正在沿着"道生一,一生二,二生三,三生万物"的趋势,使得人类与AI的关系从目前的手机AI拍照.智能助手扩展至生活中的各种终端,小到一个物联网中的传感设备,再到 ...

  9. 【图神经网络】万物皆可Graph | 当推荐系统遇上图神经网络

    NewBeeNLP原创出品 公众号专栏作者@上杉翔二 悠闲会 · 信息检索 图神经网络可以说是现在AI领域的超级宠儿.针对推荐系统的稀疏性问题,图方法还真的很适合,主要原因有下: 推荐系统中存在很多的 ...

最新文章

  1. css炫酷标题,纯css3鼠标滑过图片炫酷标题显示特效
  2. Linux系统文件目录
  3. 【Python算法】哈希存储、哈希表、散列表原理
  4. recv函数返回值说明
  5. 在python中print表示的数据类型是_python之数据类型
  6. Python 实现 动态规划 /斐波那契数列
  7. php 单元测试 麻烦,php – 正确的单元测试
  8. Python基础:对象的深拷贝和浅拷贝的区别
  9. SVG技术入门:线条动画实现原理
  10. [跨平台系列三Docker篇]:ASP.NET Core应用
  11. javascript中组合使用构造函数模式和原型模式创建对象
  12. 触发器中的 Inserted表和Deleted表
  13. STM32/STM8选型手册
  14. Cisco模拟器DHCP详细教程
  15. 对计算机的认识和未来规划,计算机导论论文-论对软件专业的认识和对未来四年的规划...
  16. [转]经济学金融学书籍推荐
  17. darknet测试voc数据集精度
  18. 包政讲营销录音(3)
  19. 基于MATLAB的Cholesky分解法
  20. keytool 错误: java.lang.Exception: 密钥库文件不存在: keystore

热门文章

  1. win32的一个售票程序,收获有非常的多
  2. 【数据结构】顺序表的应用(3)(C语言)
  3. 英伟达推出全球首个元宇宙平台,豪砸数亿是为什么?
  4. 激光雷达与相机:哪个最适合自动驾驶汽车?
  5. “奥利”来啦,腾讯Robotics X实验室跑出的“轮滑小子”
  6. 手机芯片谁是AI之王?高通、联发科均超华为
  7. 2019秋招AI岗位竞争究竟有多激烈?
  8. 如何快速优化机器学习的模型参数
  9. 我能想到最浪漫的七夕,就是让AI唱一首“我爱你”!
  10. Facebook开源多款AI工具,支持游戏、翻译等