【翻译于 Aaron Tay、Alberto Martín-Martín 和 Sven E. Hug 的《Goodbye, Microsoft Academic – Hello, open research infrastructure?》】

今年晚些时候宣布关闭 Microsoft Academic 可能使研究界基本上不为所动,尽管它的消亡对使用该服务的大量数据库的人具有重大影响。在这里,Aaron Tay、Alberto Martín-Martín和Sven E. Hug ¸ 讨论了 Microsoft Academic 与竞争对手的不同之处,以及 Microsoft 退出学术元数据以开发开放式研究基础设施的潜在后果。


近日,微软宣布将关闭仅次于 Google Scholar 的第二大学术搜索引擎 Microsoft Academic。尽管全球科学界对这一宣布几乎没有注意到,但许多计算机科学家、元研究人员、图书馆员和初创企业都感到震惊,因为他们一直在围绕数据库构建信息服务生态系统。

Microsoft Academic 并不是该公司首次尝试构建文献搜索工具。作为较早的项目,Microsoft Academic Search 从 2009 年运作到 2012 年一直陷入年久失修,直到 2016 年正式重新启动为 Microsoft Academic。这表明 Microsoft 从未打算进入学术元数据业务。相反,正如雷德蒙德研究人员最近的一篇文章所暗示的那样,这家科技巨头一直在使用学术交流数据作为大数据和人工智能 (AI) 技术的试验场。有传言称,微软可能会提供经过测试的技术来从 Office 365 中的文档中获取知识。

一个复杂的搜索引擎

虽然 Web of Science 和 Scopus 等传统引文索引主要基于选定的期刊,但 Microsoft Academic 的优势在于它抓取网络的方式以及使用人工智能技术填充其数据库。因此,Microsoft Academic 在索引新出版物方面的速度更快并且包含比 Web of Science Core Collection(7900 万)和 Scopus(7500 万)多得多的记录(1.94 亿,无专利)也就不足为奇了。Microsoft Academic 还涵盖范围更广的出版物类型(预印本、工作论文、论文等),并在传统引文数据库通常无法很好涵盖的研究领域大放异彩,例如计算机科学、社会科学和人文科学。

“Microsoft Academic 的优势在于它抓取网络的方式以及使用 AI 技术填充其数据库的方式。”

Microsoft Academic 相对于 Google Scholar 的一个主要优势是搜索界面,目前它仍然提供充足的过滤和排序选项,并提供各种排名(主题、期刊、机构等)以及摘要统计的可视化。尽管该搜索引擎是免费的,并且为学者提供了一个集成的社交网络,但它从未受到研究人员的欢迎,从网络流量统计中可以看出:

根据 SimilarWeb 的数据,2021 年 4 月的总访问量(百万)
scholar.google.com 137.5
semanticscholar.org 8.9
scopus.com 5.2
webofknowledge.com 4.4
academic.microsoft.com 0.7

这种低使用率的主要原因可能是搜索界面本身。它从根本上不同于传统的学术搜索系统,因为它是由人工智能技术驱动的。具体来说,该界面提供了真正的语义搜索,而不是使用布尔运算符进行通常的关键字搜索。或者正如微软曾经解释的那样:'微软学术理解单词的含义,它不只是将关键字与内容相匹配。例如,当您键入“Microsoft”时,它就知道您指的是该机构,并向您显示由 Microsoft 附属研究人员撰写的出版物。此外,搜索引擎基于超过 700,000 个“研究领域”(即主题或概念),这些领域由算法创建并不断扩展,而其他搜索系统使用固定的、人工策划的和不太复杂的分类。此外,搜索引擎采用两个独特的指标,显着性和估计引用数,这对于大多数用户来说难以理解和解释。总体而言,这些人工智能驱动的功能创造了一种与用户习惯截然不同的搜索体验。由此看来,所采用的人工智能技术对用户来说要么过于前卫,要么不够成熟。

大量免费数据

虽然搜索引擎尚未被科学界所接受,但其底层数据 Microsoft Academic Graph 却吸引了众多用户。有几个原因。数据集庞大,结构良好且详细。它的使用是免费的,而且访问很方便(API 或完整的数据转储)。相比之下,直接访问谷歌学术数据是不可能的,只能在非常有限的范围内从谷歌学术中抓取数据。尽管微软专门采用人工智能技术来收集和整理数据,但数据质量相当准确,适合对学术交流的某些方面进行大规模分析。

“Microsoft Academic 使研究人员和商业企业能够以较低的成本使用全面的元数据”

通过这种方式,Microsoft Academic 使研究人员和商业企业能够以较低的成本使用全面的元数据。在微软提供其数据库之前,只有少数研究所(富裕国家)的研究人员可以访问大型数据集,而拥有此类数据的公司大多将其用于自己的产品。自 2015 年以来,介绍 Microsoft Academic Graph的论文已被引用超过 500 次,这表明该数据库在研究中的有用性。该图还用于许多商业和非商业工具和服务(例如,VOSviewer、Unsub、Litmaps、scite)。甚至还有一些书目数据库和搜索引擎可以利用 Microsoft Academic 的丰富资源(例如Semantic Sc​​holar、The Lens、Scinapse)。

尽管 Microsoft Academic 的关闭不会以同样的方式影响这些工具和服务的性能,但很明显,宝贵的资源将在今年年底丢失。它是否以及如何被取代还有待观察。最便宜的解决方案是向 Microsoft 支付继续使用数据库的费用,这当然需要 Microsoft 愿意让它继续运行。每年更新Microsoft Academic Graph 内容的云计算成本大致相当于一位经验丰富的数据科学家的薪水。数据库的一位开发人员最近估计将 Microsoft Academic 维持在当前的技术水平所花费的费用大约是中型大学为传统引文索引中的数据支付的费用的三分之一。

走向开放的研究基础设施?

Microsoft Academic 展示了由 AI 技术收集和整理的公开可用元数据的价值。它为研究人员和商业企业提供了沃土。当然,还有其他开放的元数据源。例如,Crossref 包含超过 1.25 亿条记录,其中 4800 万条具有开放引用,这要归功于 I4OC 和合作出版商。但是,Crossref 较小,包含的详细数据较少,整理的一致性较差,并且仅索引具有 DOI(数字对象标识符)的出版物。

最后,微软的项目证明,仅仅公开数据库是不够的——数据库还必须是可持续的。如果我们想要开放和可持续的数据库,那么投入更多时间和资源来构建它们可能是一个好主意。首先,我们可以支持那些计划构建开源和免费使用Microsoft Academic 替代品的人。

注: 本文为作者观点,不代表社会科学影响博客的立场,也不代表伦敦经济学院的立场。 如果您对在下面发表评论有任何疑虑,请查看我们的 评论政策。

再见,Microsoft Academic——你好,开放式研究基础设施?相关推荐

  1. Microsoft Academic Search vs Google Scholar

    一直以来找论文等学术资料都是去校图书馆的,校图书馆对于在校生是最好不过的了,内容针对性强,又对学生免费.但是不方便访问学校图书馆的人们通常通过免费的学术搜索引擎来查找学术文献.本篇文章对微软的Micr ...

  2. 再见2022,你好2023:八年程序媛老兵的践行、思考与展望

    再见2022,你好2023 写在前面的话 1.2022速记 1.1 产假前,ParaView三维自动化项目 1.2 产假后,EDA仿真项目 1.3 从EDA行业谈谈2022年的经济寒冬 2. 2023 ...

  3. 新生搜索神器Microsoft Academic Search与Google scholar、PubMed、wos、embase大PK!

    新生搜索神器Microsoft Academic Search与Google scholar.PubMed.wos.embase大PK! 微软学术搜索(Microsoft Academic Searc ...

  4. 2013再见,2014你好!

    时间过得真是匆匆,2013再见,2014你好,今天元旦放假,刚好总结梳理下自己的2013,然后也写写自己的2014规划,希望自己能做得更好. 总结2013 关于学习和工作 2013年的6月份终于读完了 ...

  5. 华为鸿蒙微波炉,再见EMUI,你好鸿蒙!华为不止做手机

    原标题:再见EMUI,你好鸿蒙!华为不止做手机 Hello,大家好,我是老孙 前几天有媒体报道,华为将在12月开启Mate40系列鸿蒙OS升级工作,华为方面迅速辟谣原来是乌龙一场.照既定计划,华为将在 ...

  6. 2018个人总结《再见2018,你好2019》

    再见2018,你好2019现在时间 :2019.01.30 15:26:10,今天是年前在公司的最后一天,正在纠结..第四篇博客该分享什么内容...(为什么发4篇,这个不重要,只是为了持之以恒徽章-. ...

  7. 六月再见,七月你好!

    一天很短,24小时,稍纵即逝,短到来不及拥抱第一抹阳光,就要迎接落日的余晖. 一年很短,365天,如白驹过隙,短到来不及细细品味春天的生气,就要面对寒冬的风霜. 一生很短,短短几年,一睁一闭就过了.短 ...

  8. 你被「七月再见,八月你好」刷屏了吗?

    "   阅读文本大概需要 2.5 分钟 这几天又被各大媒体平台包括朋友圈刷屏了. 七月再见,八月你好,八月的我们会更好,期待更好的自己,也期待多多挣钱. 对于这种无目标跟风式的鸡汤,他们以后 ...

  9. pyqt label改变文字_11月你好图片配文字 10月再见11月你好朋友圈唯美文案

    10月再见11月你好 10月再见11月你好 时间如水流,转眼间十月已过去了大半,马上要进入十一月了,一起来说声十月再见十一月你好. 不要想得太多,做的太少.十月再见,放下懒散与浮躁:十一月你好,马上行 ...

最新文章

  1. HadoopSourceAnalyse---RMAppAttempt FSM
  2. Mvc5 控制器,视图简单说明
  3. 中国石油大学计算机专业调剂信息,2014年中国石油大学(北京)计算机专业考研调剂信息(新)...
  4. mysql数据库比较,各数据库不同之处
  5. shellcode执行盒_简单shellcode学习
  6. java讲师北京_Java工程师提升空间大,前途好,该如何跨入它的大门呢?
  7. FPGA学习——Vivado2017.4安装教程
  8. python绘制风玫瑰图_用Python matplotlib 怎么画风向玫瑰图 能给出程序的
  9. 'C 语言' | 全排列解桥本分数式问题
  10. 高德开放平台GeoHUB初用(Vue使用高德地图Loca 2.0)
  11. 在虚拟机中ping了停不下来怎么办?
  12. 键盘输入正六边形边长,输出对应的正六边形
  13. Vue 移动端实现调用相机扫描二维码或条形码
  14. docker制作镜像的两种方法
  15. 人民币首度超过美元!
  16. Zookeeper连接异常 Got ping response for sessionid 2021-06-30
  17. .npy文件的打开方式
  18. 湖南省计算机等级考试(二级)题库 第四部分
  19. 柳絮纷飞的日子——CSS笔记之四
  20. php记事,PHP记事(2)

热门文章

  1. Laya商业级3d实战-06用户输入_u3dApi集成
  2. 办公套件Office LTSC 2021中文
  3. AI.Roboform.Enterprise.v7.8.3.5-TE
  4. 百度地图JavaScript API GL1.0给折线添加箭头
  5. 无线电能传输LCC-S拓扑/WPT MATLAB/simulink仿真模型
  6. mars3d与echart图表结合使用
  7. 关闭占用端口号的程序
  8. Excel 技巧百例:数据透视表的排序
  9. Unix哲学学习笔记
  10. 屏蔽ip段访问 html,限制某IP段对网页的访问(ASP)