OpenKG 祝各位读者元宵节快乐!

本文转载自公众号:机器之心。

选自ISWC

作者:Baptiste Rocca

参与:思源、李亚洲

我们知道强大的深度模型需要很多计算力,那你知道创建一个知识图谱的成本到底是多少吗?德国 Mannheim 大学的研究者最近仔细估算了各种知识图谱每创建一条记录所需要的成本,他们表示对于大型知识图谱,手动创建一个三元组(即一条记录)的成本在 2 到 6 美元之间,总成本在数百万到数十亿美元之间。

知识图谱 广泛用于各种领域,它的统计信息也常被分析。但有一个问题一直缺乏研究:产出价格是多少?在此论文中,研究者提出了一种方法预估知识图谱的成本。他们表示手动创建一个三元组(triple)的成本大约在 2 到 6 美元左右,而自动创建知识图谱的成本要降低 15 到 250 倍(即一个三元组 1 美分到 15 美分)。

注意其中 15 美分每条的「自动化」知识图谱还是需要大量人力进行数据的验证。此外,作者表示成本也应该作为知识图谱的评价标准,例如可以使用每个三元组的成本或其他更优的度量方法。

论文:How much is a Triple? Estimating the Cost of Knowledge Graph Creation


论文地址:http://ceur-ws.org/Vol-2180/ISWC_2018_Outrageous_Ideas_paper_10.pdf


估计知识图谱的成本

随着知识图谱的广泛应用,我们越来越关注大型知识图谱,例如 DBpedia、YAGO 等。我们已经有很多方法从各种角度检查这些大型知识图谱,例如大小、覆盖度和质量等。然而这些分析不足的地方在于成本,即创建知识图谱的价格。

人工创建:Cyc 和 Freebase

对于人工创建的知识图谱,我们必须评估提供这些陈述语句(statement)的工作量,从而估计平均成本。

Cyc 是最早的通用知识图谱之一,同时它的开发成本也能公开获得。在 2017 年的一项会议中,Cyc 的创建者 Douglas Lenat 表示:构建 Cyc 的成本为 1.2 亿美元。在同一个 PPT 中,Lenat 表示 Cyc 一共有 21M 断言(assertion),因此每条陈述语句或断言需要 5.71 美元。若 1000 人有一年的时间完成,则每人每 9.5 分钟需要完成一条断言。

Freebase 是由志愿者共同完成的,因此其工作量更难判断。截止至 2011 年 4 月份,创建英文维基百科的估计时长为 41M 工时。同时维基百科包含 3.6M 的页面,平均每一个页面 36.4 个句子,因此换算下来每一条语句需要 18.7 分钟。由于大多数维基百科条目都是由美国构建的,我们可以使用每小时 7.25 美元的美国联邦最低工资作为人工成本估算,因此每一句的成本可以换算为 2.25 美元。借鉴这个成本,我们可以假设 Freebase 每一条陈述语句的成本也是 2.25 美元。

这比 Cyc 的平均成本低了一半,这种低成本也是合理的,因为 Cyc 是由人类专家构建的,而 Freebase 由非专业人员创建。总的而言,对于包含 30 亿事实(fact)的最新版 Freebase,它的总成本约为 67.5 亿美元($6.75B)。

自动创建: DBpedia、YAGO 和 NELL

评估自动创建知识图谱所花费成本不同于人工创建知识图谱。我们参考了用于创建知识图谱的软件,基于代码行数(LOC)来估计开发知识图谱的成本。我们遵循 [2] 中的分析,即一个软件生成项目平均每小时生产 37 行代码(LOC)。

DBpedia 主要是基于 DBpedia 提取框架从维基百科 Dump 得到的,它通过映射中心实体而创建知识图谱。DBpedia 两部分需要 4.9M 和 2.2M LOC,它需要的总开发成本为 510 万美元。鉴于英语 DBpedia[11] 共有 400M 陈述语句,每一条成本约为 1.85 美分。相比于人工搭建的知识图谱(每一条 2.25 美元),自动搭建的要节省百倍的成本。

YAGO 也是一种知识图谱,它将维基百科提取的知识与 WordNet[7] 相结合。为了公平比较,它的成本应该包含 WordNet 的搭建费用。YAGO 代码库有 1.6M LOC(包括将信息框映射到本体的规则),因此它的总体成本为 160 万美元。此外,WordNet 本身还包含了 117k 个同义词集,每一个包含一条注释。我们估计定义一个同义词集的成本与构建一个维基百科页面的成本相近,即最高 1000 万美元。若 YAGO 有 14 亿条陈述语句 [11],那么每一条的成本为 0.83 美分。相比人工搭建,它的成本要节省 250 倍。

NELL 是一个学习关系抽取 [8] 模式的系统,其核心技术包含 103k 的 LOC,预估开发成本为 10.9 万美元。此外,该数据集每月还需要人工校验 1467 条陈述语句。假设人工校验一条陈述语句的成本和创建成本一样,那么总的校验成本为 37.6 万美元,即通成本为 48.5 美元。因此换算下来,NELL 每条陈述语句的成本为 14.25 美分,即比手动搭建便宜 16 倍。

新的评估标准

把成本作为创建知识图谱的一种测量方法也能为其他评估方法铺平道路。例如,可以通过成本查验为知识图谱补充缺失信息提供新方法 [9]:一个人一年半开发知识图谱应该可以添加 2800 条陈述语句,这应该是人力手动产出的三元组数量。

另一个有趣的思路是开发成本与数据质量之间的关系。在图 1 中,我们图像描述了该论文讨论的知识图谱中每个三元组成本与错误率之间的关系。我们可以看到,高成本创建的三元组准确率也会更高,NELL 是个例外,准确率与成本之间关系极差。

每个三元组成本与错误率之间的关系展示图。

总结

在这篇论文中,我们大体估计了创建一个流行的知识图谱所花费的成本,这也是当前研究忽视的一个方面。我们量化了自动创建知识图谱相比于手动方法的收益,并提出使用成本定义新型的评价标准,例如权衡成本与准确率。

有研究者反馈,我们也意识到有很多假设或估计在计算中都存在着问题(例如,我们没有考虑第三方库或基础设施的成本)。其次,知识图谱的来源或数据成本当前也没有考虑在内。然而,我们相信:知识图谱自身带来的价值将远超过各种构建成本的总和。

本文为机器之心编译,转载请联系机器之心公众号获得授权


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

技术动态 | 67 亿美金搞个图,创建知识图谱的成本有多高你知道吗?相关推荐

  1. 67 亿美金搞个图,创建知识图谱的成本有多高你知道吗?

    来源:算法与数学之美 摘要:我们知道强大的深度模型需要很多计算力,那你知道创建一个知识图谱的成本到底是多少吗?德国 Mannheim 大学的研究者最近仔细估算了各种知识图谱每创建一条记录所需要的成本, ...

  2. 当深度学习遇上量化交易——图与知识图谱篇

    ©PaperWeekly 原创 · 作者|桑运鑫 学校|上海交通大学硕士生 研究方向|图神经网络在金融领域的应用 本文主要回顾三篇将图和知识图谱应用到量化交易上的文章. NeurIPS 2019 论文 ...

  3. 技术动态 | 藏经阁计划发布一年,阿里知识引擎有哪些技术突破?

    本文转载自公众号:阿里技术. 导读:2018年4月阿里巴巴业务平台事业部--知识图谱团队联合清华大学.浙江大学.中科院自动化所.中科院软件所.苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划. ...

  4. 技术论坛 | CCF YOCSEF上海即将在 CNCC 举办“知识图谱遇见社交媒体”专题论坛

    中国计算机学会青年计算机科技论坛 CCF YoungComputer Scientists & Engineers Forum CCF YOCSEF上海 CNCC2017大会技术论坛 主题: ...

  5. 大型网站技术架构核心原理剖析,文末附知识图谱下载

    什么是软件架构 维基百科定义:软件架构是指有关软件整体结构与组件的抽象描述,用于指导大型软件系统各个方面的设计. 软件架构5大要素: 性能 可用性 伸缩性 扩展性 安全性 可以通过考察这5大要素来衡量 ...

  6. 浅析图数据库市场/图数据库/图计算/图引擎/图神经网络/知识图谱.

    欢迎大家一起交流,本人对于图方面的做过一些市场洞察以及Mapping. 图论的历史 **第一阶段:**从1736年到19世纪中叶1736年,欧拉(L·Euler)研究哥尼斯堡城(Koni gsberg ...

  7. 异构网络-元图、知识图谱

    异构网络: 异构网络中基于元图的推荐--FMG_cqu_shuai的博客-CSDN博客_元图和元路径 异构信息网络和知识图谱异同 异质信息网络和知识图谱_饮冰l的博客-CSDN博客_异质信息网络

  8. d3 - 建立力引导图将知识图谱可视化 (一)

    本文要实现的功能与这个网页比较类似: KGBuilder知识图谱可视化 使用到的插件为: d3 没有采用echarts等实现的原因是: echarts比较死板, 有些需求不能实现, 而d3可以灵活的制 ...

  9. 关于NLP相关技术全部在这里:预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文本处理...

    NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生. 我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准 ...

最新文章

  1. live2d模型_使用二次元模型动画人物让自己网站“骚起来”
  2. python闭包锁住女神的心
  3. VTK:Utilities之FilenameFunctions
  4. 分计算iv值_一文读懂评分卡的IV、KS、AUC、GINI指标
  5. tomcat调优方案Maximum number of threads (200) created for connector with address null and port 8091...
  6. Tinker在sdk升级后无法成功打补丁包的问题
  7. MATLAB三阶导怎么输入,三阶样条插值(一阶导数边界条件) matlab程序
  8. PathProber:基于暴力破解方法探测和发现HTTP路径名
  9. 电信光猫HG2201T超级管理员模式
  10. 图书馆网计算机编目管理系统,浅谈图书编目计算机管理系统
  11. 频谱分析仪查看时域波形
  12. oppo9s刷机教程_OPPO R9s R9sk刷机教程 OPPO R9s R9sk卡刷升级教程
  13. 【加法器】——模拟电路设计简单的二进制数加法器
  14. Zynga 在韩国发布游戏《Harry Potter: Puzzles Spells》
  15. poj2142 The Balance
  16. 航程门业:如何选购实木复合门及如何保养
  17. CSV文件乱码问题解决
  18. Stata绘图相关问题
  19. Playcanvas动画格式解析
  20. linux主ip地址 网络信息不可用,win10 安装虚拟机提示 主IP地址显示网络信息不可用...

热门文章

  1. Silverlight带关闭动画的内容控件,可移动的内容控件(一)
  2. Oracle定时器(Job)各时间段写法汇总
  3. STL中的set/map
  4. 简单的C语言程序合集-2
  5. 当你使用微信和QQ的时候,请不要忘记ICQ这个伟大的公司!
  6. 修改Win10 alt+F4默认选项为关机
  7. 纸机器人的折法_好神奇!他们竟用一张纸折成了一个机器人
  8. android区块链 钱包_区块链钱包Cashbox 开发工程师聊一聊开源
  9. sql 账号查询一个表查询权限_一个查询语句引发的问题以及巨型表相关操作探索与思考...
  10. 第二周:神经网络的编程基础之Python与向量化