90后技术宅研发Magi一夜爆红,新一代知识化结构搜索新时代来了?
- 从零设计研发了整个技术堆栈,包括原创 succinct 索引结构的分布式搜索引擎
- 使用专门设计的 Attention 网络的神经提取系统
- 不依赖 Headless 浏览器的流式抓取系统
- 支持混合处理 170 余种语言的自然语言处理管线
- 独一无二的训练/预训练数据。
- 这个系统通过引入传统搜索中的 query-independent 质量因素,使得优质可靠的消息源会更被重视
- 其基于多级迁移学习的提取模型则完全摒弃了人工规则、角色标注、依存分析等限制泛化能力的环节,并且可在 zero-resource 的前提下直接应用到各种外语文本上并取得令人满意的效果
- 而随着数据的积累以及来源多样性的扩充,这个系统还能够持续学习与调整,自动消除学习到的噪音和错误结果。
- 能够 exhaustively 提取重叠交错的知识,且不利用 HTML 特征。
- 不预设 predicate / verb,实现真正意义上的 “Open” Information Extraction。具体来说,Magi 不再依赖于预设的规则和领域,“不带着问题” 地去学习和理解互联网上的文本信息,同时尽可能找出全部信息 (exhaustive) 而非挑选唯一最佳 (most promising)。Magi 通过一系列预训练任务淡化了具体实体或领域相关的概念,转而学习 “人们可能会关注内容中的哪些信息?”。为 Magi 设计了专门的特征表达、网络模型、训练任务、系统平台,并投入大量精力逐渐构建了 proprietary 的专用训练/预训练数据
- 配合自家 web 搜索引擎以评估来源质量,信息源和领域不设白名单,综合Clarity(清晰度)、Credibility(可信度)、Catholicity(普适性)三个 Magi 权衡知识工程的规模化和准确性难题的量化标准来进行来源质量评估。
- 大幅提升实时性,热点新闻发布后几分钟内,就可以搜到结构化知识了。
- 没有前置 NER 和 dependency parsing 等环节,减少母文本信息的损失。为 Magi 的提取模型设计了专用的 Attention 网络结构以及数个配套的预训练任务。具体来说,网络结构主要解决了复杂依赖关系和搜索空间爆炸的问题,让长文本下高效的 exhaustive 的知识提取成为可能。预训练任务则是对上述 “环节” 问题的新尝试,主要目标是淡化实体、predicate、领域的约束,充分利用多种不同的训练数据,并且降低线上持续学习修正过程中模型更新的开销。
- 技术栈完全 language-independent,可以实现低资源和跨语言 transfer。由于技术栈本身已经完全 language-independent,在设计预训练任务时,会专门 “引导” 并期望模型能在较浅层对语言有足够的抽象能力。
90后技术宅研发Magi一夜爆红,新一代知识化结构搜索新时代来了?相关推荐
- 90 后技术宅研发 Magi 一夜爆红,新一代知识化结构搜索新时代来了?
整理 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 11 月 7 日,微信群里突然炸了,大家似乎都在讨论一个叫做 Magi 的搜索引擎,据说搜索结果和现在的搜索引擎很不一样,能够输出 ...
- OBCE首位认证 实力与颜值并存 | 90后技术宅郑皓嘉的通关之路
2021年9月28日,90后技术宅郑皓嘉正式通过了专家组面试答辩,成为首位通过OBCE的实验及面试的专家,获取了OceanBase历史上第一份OBCE认证. OBCE 是OceanBase官方推出,面 ...
- 阿里开源新一代 AI 算法模型,由达摩院90后科学家研发
最炫的技术新知.最热门的大咖公开课.最有趣的开发者活动.最实用的工具干货,就在<开发者必读>! 每日集成开发者社区精品内容,你身边的技术资讯管家. 每日头条 阿里开源新一代 AI 算法模型 ...
- 一夜爆红的“隐形巨头”,声网Agora还能否发出新“声量”?
今年年初,一款名为Clubhouse的即时音频社交产品在大洋彼岸飞速走红,而在超级网红马斯克的一个直播房间,更是将其推向了热议的顶点. 随着这款产品的爆火,在幕后为其提供足以容纳5000人实时语音交流 ...
- FaceApp一夜爆红引争议,这些AI黑科技都来了!
全文共1860字,预计学习时长4分钟 最近有一款非常火爆的应用程序叫做FaceApp.这是一款AI支持的照片编辑应用程序,由俄罗斯无线实验室开发,2017年上线,近期它又新添了一项功能--一键变老.正 ...
- 一夜爆红吸粉千万“四位超级网红”背后的四大真相是什么呢?
大家好核爆财学院的小慕 今天分享下讲师核爆财学院创始人神小阳讲下网红是如何一夜爆红吸粉千万的四位背后的真相,互联网时代,渠道和流量的"造星"才能日渐强壮,网红更新迭代的速度,堪比火 ...
- 弘辽科技:丁真一夜爆红背后的直播发展趋势
原标题<弘辽科技:丁真一夜爆红背后的直播发展趋势> 相信不少人最近都听过"丁真"这个名字.这个因一条短视频而一夜爆红的四川理塘放牛的小孩. 1.互联网背后的网红经济 近 ...
- 一夜爆红的4款国产软件,却一度被大众误以为是外国人开发
现如今,计算机已经完完全全离不开我们的生活了. 说到计算机,我们不得不提软件,在这漫长的软件发展历史长河中,诞生了一批又一批,足以让国人引以为傲的国产软件. 而在这众星捧月般的一众国产软件中,却也隐藏 ...
- 采访苹果 CEO,成为 B 站百大 up 主,22岁的何同学凭什么一夜爆红?
loonggg 读完需要 4 分钟 速读仅需 2 分钟 22 岁,1999 年出生的 Z 世代学生,何同学因为一段采访全球市值最高的苹果公司 CEO 蒂姆库克,再次出圈,一夜爆红. 看完他的采访视频, ...
最新文章
- hdu 1312	Red and Black 解题报告
- R语言基本描述性统计量函数
- 交叉科学不仅不是边缘学科,反而应是科研主流
- Kali Linux重设root密码
- CocoaPods pod install/pod update更新慢的问题
- pycharm-python文件注释头
- 【IoT】基于NB-IoT的CoAP协议浅析
- Tornado异步IO
- 对Javascript异步执行的理解
- 惠普打印机换硒鼓(墨盒)
- Excel多条件求和函数之SUMPRODUCT
- 卡内基梅隆大学计算机世界排名,卡内基梅隆大学世界排名多少?
- 语音识别(ASR)论文优选:WeNet之U2++
- powerquery分组_Power Query 神奇的分组统计1
- 如何进行第一次单片机烧录
- Google reCAPTCHA ----------验证码
- MATLAB中不用循环生成圆盘(圆形)/圆环掩膜矩阵
- Bing Test -必应每日壁纸自动换
- 基于Python医学院校二手书管理毕业设计-附源码201704
- 计算机水平考试模块数量,全国职称计算机考试合格通过模块数量表.doc