整理 | 夕颜
出品 | AI科技大本营(ID:rgznai100)
11 月 7 日,微信群里突然炸了,大家似乎都在讨论一个叫做 Magi 的搜索引擎,据说搜索结果和现在的搜索引擎很不一样,能够输出以结构化知识呈现的结果。Magi 仿佛“一夜爆红”,访问量剧增,导致自 2012 年就不再更新微博,其他社交媒体也久未有动态的创始人季逸超更新了一条微博:
内容大致是不知道为何 Magi 突然蹿红,在没有做任何推广的前提下访问量剧增,导致 Magi 服务器直接崩了......
在置顶微博中,自称自闭很久的创始人还告诉大家,Magi 其实并不是单纯的网页搜索引擎,而是自主阅读文本并持续纠错的 AI。
这个 AI 真的有这么神奇吗?带着疑问,AI科技大本营(ID:rgznai100)上手实测了一把,结果一下子震惊了。
从上图中可以看到,单单是页面简洁的风格就让人很舒爽,重要的是搜索结果不仅有较为精准的描述,属性中的每一个结果还有对应的链接,并带有标签和主要学习来源部分,最关键的一点是,搜索结果以结构化知识的形式呈现。
相比之下,一些目前流行的搜索引擎效果相形见绌。
再比如输入“大枣和红枣”,结果不但会罗列出功效,还会给出“断言”,表示这两个概念是“近义项”、“又名”、“又称”、“也称”的关系,把鼠标放在右侧的学习来源上,还会显示出断言的根据。
反观另一款流行浏览器,输入相同的关键字,得出的结果如下图,第一条和第二条都是广告,第三条总算有点用了,第四条的时间显示这还是去年的答案。
偶然间在 magi.com 首页停留了一会,AI 科技大本营发现了一个小秘密,Magi 竟然在不断地学习,上图中,短短几秒钟时间,Magi 就学习到了“德国”、“防长”两个词。总之很神奇。
这不禁让人好奇,Magi 究竟是怎样一种搜索引擎呢?为什么搜索效果不同于一般搜索引擎?背后使用了哪些 AI 相 关技术?
接下来,通过 Magi  的官网介绍和季逸超的技术解读,我们可以从中大致了解到这个产品的一部分细节。
Magi 是什么?能做什么?
据官网介绍,Magi 是由 Peak Labs 从无到有自研的基于机器学习的信息抽取和检索系统,它能将任何领域的自然语言文本中的知识提取成结构化的数据,通过终身学习持续聚合和纠错,进而为人类用户和其他人工智能提供可解析、可检索、可溯源的知识体系。11 月,Peak Labs 发布了公众版 Magi.com。
与搜索引擎不同,Magi 不仅收录互联网上的海量文本,还会去尝试理解并学习这些文本中蕴含的知识和数据。此外,Magi 从零研发了一套互联网搜索引擎,所以 Magi.com 同时提供全网规模的普通搜索结果,学习过程是在无人干预的情况下 7 x 24 小时不间断运行。
AI 技术解读
互联网数据浩如烟海,质量参差不齐,如何将这些数据处理成机器能够理解的数据结构时隔巨大的挑战。Magi.com提供了与互联网数据交互的新方式,而 Magi 系统背后的技术平台则承载着另一半重要的意义:让机器像人一样能理解并充分利用互联网中无穷无尽的知识。
那么,Magi 到底用到了哪些 AI 技术呢?
  • 从零设计研发了整个技术堆栈,包括原创 succinct 索引结构的分布式搜索引擎
  • 使用专门设计的 Attention 网络的神经提取系统
  • 不依赖 Headless 浏览器的流式抓取系统
  • 支持混合处理 170 余种语言的自然语言处理管线
  • 独一无二的训练/预训练数据。
  • 这个系统通过引入传统搜索中的 query-independent 质量因素,使得优质可靠的消息源会更被重视
  • 其基于多级迁移学习的提取模型则完全摒弃了人工规则、角色标注、依存分析等限制泛化能力的环节,并且可在 zero-resource 的前提下直接应用到各种外语文本上并取得令人满意的效果
  • 而随着数据的积累以及来源多样性的扩充,这个系统还能够持续学习与调整,自动消除学习到的噪音和错误结果。
而季逸超本人也在 Magi 推出后在知乎上进行了更加详细而全面的技术解读(来源:知乎用户季逸超,链接:https://www.zhihu.com/question/354059866/answer/881655371):
工作原理
How it works (灵魂手绘凑合看吧...)
几年来 Magi 的产品形态改变了很多(请分开看待 Magi 系统和 Magi.com这个搜索引擎),技术上的进步主要体现在以下几点:
一、利用率和通用性
  1. 能够 exhaustively 提取重叠交错的知识,且不利用 HTML 特征。
  2. 不预设 predicate / verb,实现真正意义上的 “Open” Information Extraction。具体来说,Magi 不再依赖于预设的规则和领域,“不带着问题” 地去学习和理解互联网上的文本信息,同时尽可能找出全部信息 (exhaustive) 而非挑选唯一最佳 (most promising)。Magi 通过一系列预训练任务淡化了具体实体或领域相关的概念,转而学习 “人们可能会关注内容中的哪些信息?”。为 Magi 设计了专门的特征表达、网络模型、训练任务、系统平台,并投入大量精力逐渐构建了 proprietary 的专用训练/预训练数据
二、覆盖率和实效性
  1. 配合自家 web 搜索引擎以评估来源质量,信息源和领域不设白名单,综合Clarity(清晰度)、Credibility(可信度)、Catholicity(普适性)三个 Magi 权衡知识工程的规模化和准确性难题的量化标准来进行来源质量评估。
  2. 大幅提升实时性,热点新闻发布后几分钟内,就可以搜到结构化知识了。
三、可塑性和国际化
  1. 没有前置 NER 和 dependency parsing 等环节,减少母文本信息的损失。为 Magi 的提取模型设计了专用的 Attention 网络结构以及数个配套的预训练任务。具体来说,网络结构主要解决了复杂依赖关系和搜索空间爆炸的问题,让长文本下高效的 exhaustive 的知识提取成为可能。预训练任务则是对上述 “环节” 问题的新尝试,主要目标是淡化实体、predicate、领域的约束,充分利用多种不同的训练数据,并且降低线上持续学习修正过程中模型更新的开销。
  2. 技术栈完全 language-independent,可以实现低资源和跨语言 transfer。由于技术栈本身已经完全 language-independent,在设计预训练任务时,会专门 “引导” 并期望模型能在较浅层对语言有足够的抽象能力。
Peak Labs和创始人PeakJi
到这里,技术部分基本上已经讲完了,如果你对 Magi 的技术感兴趣,可以访问官网( https://www.peak-labs.com/docs/zh/Magi/intro)和季逸超的知乎,了解更多技术细节。
现在我们来了解一下 Magi 背后的团队——Peak Labs,以及创始人 PeakJi 。
先说这位具有传奇色彩的创始人PeakJi。PeakJi 真名季逸超,90 后男生,小时候在美国生活,在北大附中读高中期间接触 iOS并加入威锋网 WEIP 技术组,先后参与了 wefit 输入法的完善和各种越狱研究,高三设计并开发猛犸 1 网页浏览器,大一推出猛犸 4。
虽然现在 App 应用市场已经看不到猛犸网页浏览器的身影,但在当时这个浏览器被国际知名评测网站 App Advice评价,“猛犸4”重新定义了浏览器的标准,还有测试网站建议在 iPhone 上预装这款浏览器,可见其影响力。这让他在 IT 界一炮而红,并斩获了 Macworld 2011 特等奖。
据说,PeakJi 所有的产品都是由他独自完成设计、美工、算法、编码、测试和推广,是个十足的天才少年。
2013 年,季逸超入选福布斯创业榜30 位 30 岁以下的中国大学生创业者清单,登上《福布斯》杂志封面。
在现实生活中,季逸超似乎是个具有奇怪幽默感的人。在知乎上“季逸超是一个什么样的人?他有什么轶事?”的问题中,他脑补出一出本人被人肉并“悲剧”的大戏,并以第三者的视角告诉大家,他只是一个热爱电脑,与代码世界有着不解之缘的技术宅,还自嘲是登上《福布斯》榜最穷的人

90后技术宅研发Magi一夜爆红,新一代知识化结构搜索新时代来了?相关推荐

  1. 90 后技术宅研发 Magi 一夜爆红,新一代知识化结构搜索新时代来了?

    整理 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 11 月 7 日,微信群里突然炸了,大家似乎都在讨论一个叫做 Magi 的搜索引擎,据说搜索结果和现在的搜索引擎很不一样,能够输出 ...

  2. OBCE首位认证 实力与颜值并存 | 90后技术宅郑皓嘉的通关之路

    2021年9月28日,90后技术宅郑皓嘉正式通过了专家组面试答辩,成为首位通过OBCE的实验及面试的专家,获取了OceanBase历史上第一份OBCE认证. OBCE 是OceanBase官方推出,面 ...

  3. 阿里开源新一代 AI 算法模型,由达摩院90后科学家研发

    最炫的技术新知.最热门的大咖公开课.最有趣的开发者活动.最实用的工具干货,就在<开发者必读>! 每日集成开发者社区精品内容,你身边的技术资讯管家. 每日头条 阿里开源新一代 AI 算法模型 ...

  4. 一夜爆红的“隐形巨头”,声网Agora还能否发出新“声量”?

    今年年初,一款名为Clubhouse的即时音频社交产品在大洋彼岸飞速走红,而在超级网红马斯克的一个直播房间,更是将其推向了热议的顶点. 随着这款产品的爆火,在幕后为其提供足以容纳5000人实时语音交流 ...

  5. FaceApp一夜爆红引争议,这些AI黑科技都来了!

    全文共1860字,预计学习时长4分钟 最近有一款非常火爆的应用程序叫做FaceApp.这是一款AI支持的照片编辑应用程序,由俄罗斯无线实验室开发,2017年上线,近期它又新添了一项功能--一键变老.正 ...

  6. 一夜爆红吸粉千万“四位超级网红”背后的四大真相是什么呢?

    大家好核爆财学院的小慕 今天分享下讲师核爆财学院创始人神小阳讲下网红是如何一夜爆红吸粉千万的四位背后的真相,互联网时代,渠道和流量的"造星"才能日渐强壮,网红更新迭代的速度,堪比火 ...

  7. 弘辽科技:丁真一夜爆红背后的直播发展趋势

    原标题<弘辽科技:丁真一夜爆红背后的直播发展趋势> 相信不少人最近都听过"丁真"这个名字.这个因一条短视频而一夜爆红的四川理塘放牛的小孩. 1.互联网背后的网红经济 近 ...

  8. 一夜爆红的4款国产软件,却一度被大众误以为是外国人开发

    现如今,计算机已经完完全全离不开我们的生活了. 说到计算机,我们不得不提软件,在这漫长的软件发展历史长河中,诞生了一批又一批,足以让国人引以为傲的国产软件. 而在这众星捧月般的一众国产软件中,却也隐藏 ...

  9. 采访苹果 CEO,成为 B 站百大 up 主,22岁的何同学凭什么一夜爆红?

    loonggg 读完需要 4 分钟 速读仅需 2 分钟 22 岁,1999 年出生的 Z 世代学生,何同学因为一段采访全球市值最高的苹果公司 CEO 蒂姆库克,再次出圈,一夜爆红. 看完他的采访视频, ...

最新文章

  1. hdu 1312 Red and Black 解题报告
  2. R语言基本描述性统计量函数
  3. 交叉科学不仅不是边缘学科,反而应是科研主流
  4. Kali Linux重设root密码
  5. CocoaPods pod install/pod update更新慢的问题
  6. pycharm-python文件注释头
  7. 【IoT】基于NB-IoT的CoAP协议浅析
  8. Tornado异步IO
  9. 对Javascript异步执行的理解
  10. 惠普打印机换硒鼓(墨盒)
  11. Excel多条件求和函数之SUMPRODUCT
  12. 卡内基梅隆大学计算机世界排名,卡内基梅隆大学世界排名多少?
  13. 语音识别(ASR)论文优选:WeNet之U2++
  14. powerquery分组_Power Query 神奇的分组统计1
  15. 如何进行第一次单片机烧录
  16. Google reCAPTCHA ----------验证码
  17. MATLAB中不用循环生成圆盘(圆形)/圆环掩膜矩阵
  18. Bing Test -必应每日壁纸自动换
  19. 基于Python医学院校二手书管理毕业设计-附源码201704
  20. 计算机水平考试模块数量,全国职称计算机考试合格通过模块数量表.doc

热门文章

  1. logback修改第三方包日志打印
  2. 长春SEO优化:SEO优化开篇——内容优化
  3. mac lion 系统安装
  4. kali系列-一.kali U盘安装
  5. LinuxIP白名单设置
  6. 为你的 Linux 桌面设置一张实时的地球照片
  7. 2022年南京Java培训机构排名,实力突出遥遥领先
  8. Flask项目之个性化微电影网站的实战开发(完结)
  9. go语言记录日志uber-go/zap/lumberjack的用法
  10. 布隆过滤器原理和基于BloomFilter的误判率展示