作者 | 非主流

出品 | AI科技大本营(公众号ID:rgznai100)

继 Google Scholar(Google 学术搜索)之后,Google 又为科研工作者推出了一款重磅产品—— Google Dataset Search(Google 数据集搜索)。

网址:https://toolbox.google.com/datasetsearch

为什么说这款产品如此重要?因为数据从未如此重要。由于深度学习的兴起,AI 研究员需要大量的数据来训练他们的模型,吴恩达就曾表示,深度学习像火箭,计算是引擎,数据是燃料。有时候,数据可能比算法更重要。

然而,数据集和相关数据往往分布在网上的多个数据存储区中。在大多数情况下,搜索引擎既无法提供这些数据库相关信息的链接,也不会将这些信息编入索引,这会导致数据寻找变得无比繁琐,或者在某些情况下无法实现。

一些掌握了大量数据的互联网公司也因此拥有很大的优势,而高校的学者除了一些公开的知名数据集,想要拥有大量的数据则非常困难,因此 Google 的这款产品可谓是及时雨。当然,其他需要各种数据的工作者也能从中受益。

Google Dataset Search 为用户提供了能够同时搜索多个存储区的单个界面,希望借此改变用户发布和运用数据的方式。

现在,就让我们来一起看下这款搜索工具。

与 Google Scholar 类似,Google Dataset Search 可方便用户查找托管在任何位置的数据集,无论是出版网站、数字图书馆还是作者的个人网页。

为了创建 Dataset Search,Google 还为数据集提供方制定了一套数据指南(https://developers.google.com/search/docs/data-types/dataset)。这些指南包括有关数据集的重要信息:数据集的作者,发布时间,数据收集方式,使用数据的条款等等。然后,Google 收集并链接这些信息,分析同一数据集的不同版本可能在哪里,并找到可能描述或讨论这一数据集的出版物。

Google 的指南是基于一个数据集的开放标准(schema.org),任何发布数据的人都可以通过这种方式描述他们的数据集。

在这个新版本中,用户可以找到很多环境和社会科学相关的数据集,以及其他学科的数据,包括政府数据和新闻机构提供的数据,如 ProPublica。随着越来越多的数据仓库使用 schema.org 标准来描述他们的数据集,Google Dataset Search 能够搜索到的数据集的种类和覆盖面将持续增长。

目前 Google Dataset Search 已经支持多种语言,笔者尝试了下,除了英文,还支持中文。

我们先尝试下英文搜索,如果你想分析天气记录,那么就可以在 Google Dataset Search 的输入栏里尝试输入“daily weather”,结果如下图所示:

可以看到,左边栏呈现的是各种数据源,右边则是相应的介绍,包括数据集的名称、下载链接、更新日期、提供者、说明等等,非常清晰。

现在,我们来尝试下中文,在搜索栏输入“房价”,第一条就是中国房价的数据集,该数据集由 CEIC 提供,涵盖的时间段从 2017年7月1日  — 2018 年 6 月 1 日,算是非常新的数据了。

打开该数据集的链接,嗯,是个收费网站。不过,花钱能解决的事,总比毫无头绪来得好。

Dataset Search 的发布凸显了 Google 对数据集的重视。最近,Google 也对自家的 Google Search 也进行了改进,使得用户搜索结果中发现表格数据变得更加容易,不过该计划更侧重于新闻机构和数据记者,而 Dataset Search 的受众则更加广泛。

Google 表示,这个项目能够带来下列好处:

  • 形成数据共享生态系统,鼓励数据发布者依照最佳做法来存储和发布数据;

  • 为科学家提供相应平台,方便大众引用他们创建的数据集,展现他们的研究成果所带来的影响力。

当然,Google Dataset Search 的搜索质量取决于数据发布者,因此,如果大家都用开放标准来描述自己的数据,那么搜索结果肯定会越来越好。

Google Dataset Search 目前仍处于测试阶段,虽然支持中文搜索,但中国大陆的用户想要使用依然需要“梯子”,不过这么好的工具,错过岂不可惜!

针对 Google Scholar,2014 年 6 月百度上线了“百度学术”,不过大家似乎仍对 Google Scholar 情有独钟。这次,百度怎么看?

征稿啦

CSDN 公众号秉持着「与千万技术人共成长」理念,不仅以「极客头条」、「畅言」栏目在第一时间以技术人的独特视角描述技术人关心的行业焦点事件,更有「技术头条」专栏,深度解读行业内的热门技术与场景应用,让所有的开发者紧跟技术潮流,保持警醒的技术嗅觉,对行业趋势、技术有更为全面的认知。

如果你有优质的文章,或是行业热点事件、技术趋势的真知灼见,或是深度的应用实践、场景方案等的新见解,欢迎联系 CSDN 投稿,联系方式:微信(guorui_1118,请备注投稿+姓名+公司职位),邮箱(guorui@csdn.net)。

————— 推荐阅读 —————

Google 推出数据集搜索!百度怎么看?相关推荐

  1. Google推出数据集搜索!百度,你怎么看?

    作者 | 非主流 出品 | AI科技大本营(公众号ID:rgznai100) 继 Google Scholar(Google 学术搜索)之后,Google 又为科研工作者推出了一款重磅产品-- Goo ...

  2. 谷歌推出数据集搜索专用引擎Dataset Search

    谷歌推出数据集搜索专用引擎Dataset Search 9 月 5 日,谷歌发布了一个帮助研究者查找在线数据的免费搜索引擎 Dataset Search.谷歌表示,该引擎面向「科学家.数据记者.数据极 ...

  3. Google推出移动搜索 80亿网页、8亿图片尽在掌中

    据观察, Google Mobile移动搜索功能已经被悄悄启用.无线搜索服务的专用网站 mobile.Google.com已经正常运作. Google Mobile以用户掌上的Google搜索为口号, ...

  4. 两虎相争将带来优质的互联网搜索服务 --- 我看Google归来!

    两虎相争将带来优质的互联网搜索服务 --- 我看Google归来! 近期盛传Google重新进入中国市场,尤其是其互联网搜索业务.包括笔者在内的众多中国网民对此很是兴奋,大家很期待google重新归来 ...

  5. Google+内幕:搜索巨人的社交网络努力【来自百度百科】

    今天,世界上最大的搜索公司 Google 正式发起自己在社交网络领域的又一次重要攻势.此次发布的产品名为 Google+,观察者们可能会怀疑它不过是这家在社交网络一直没摸到门道的公司的又一次无谓努力. ...

  6. Google数据集搜索神器上线,和搜索论文一样简单 | 还不去训练网络?

    圆栗子 发自 凹非寺  量子位 出品 | 公众号 QbitAI 谷歌数据集搜索工具,上线了. 在发布这个消息的博客里,团队大概表达了这样的意思: 现在啊,许多领域的科学家,每天呼吸的不是空气,是数据集 ...

  7. 白杨SEO:百度算法更新大全合集49条(截至2021年9月),做百度关键词搜索排名必看!

    百度重要算法更新大全[以下加粗重点看看] 要看图片公众号:白杨SEO优化教程上 1.李彦宏1997年就提交了一份名为"超链文件检索系统和方法"的专利申请.李彦宏提出了与传统信息检索 ...

  8. Google为儿童打造了搜索引擎,百度怎么看?

    谷歌推出了一个叫kiddle的儿童专用的搜索引擎,而这不是一般的搜索引擎,kiddle是可视化搜索(visual search)的,简而言之就是搜索结果可以是图片.Flash之类的,更加适合儿童.ki ...

  9. 全球最大的搜索引擎 Google 推出的站长赚钱计划,看了就知道!

    全球最大的搜索引擎 Google 推出的站长赚钱计划,看了就知道! 怎样申请 Google AdSense ? 什么是 Google AdSense ? 网站挂 Google 广告能赚多少钱? 我的网 ...

最新文章

  1. 面试官如何判断面试者的机器学习水平?
  2. Windows 多种版介绍
  3. java的枚举类enum
  4. ORACLE数据库实现自增的方式
  5. 黑马ee在职进阶视频_进阶– Java EE 7前端5强
  6. priority_queuey用法
  7. strace 简单用法
  8. for XML path 转义
  9. Java集合框架HashMap和ConcurrentHashMap实现分析
  10. string 操作 java_Java中String类的一些常见问题
  11. MATLAB深度学习工具箱文档——trainingOptions函数的参数设置
  12. 视觉开发应用1- 机器视觉基本知识之工业相机
  13. 关于图像傅里叶变换得到的频谱图的通俗理解
  14. (运存扩展器)Android手机内存扩展软件RAMEXPANDER使用教程
  15. linux系统下操作nandflash指令,Linux驱动之Nand Flash原理及硬件操作
  16. python做网站怎么样_怎么用python做网站?
  17. python调用百度AI接口实现人像分割
  18. EAS(能量感知调度)绿色节能调度器
  19. 白月黑羽教python之pytest:课后练习
  20. Mysql检查列是否存在并新增、修改、删除列

热门文章

  1. opencv+resize+padding+concate
  2. 使用自己的数据训练Yolov4-tiny模型,并用tensorrt运行(配置github host、编译安装opencv4.1.1+contrib和darknet、制作数据集、训练全流程)
  3. [SQL]实战之查找员工编号emp_no为10001其自入职以来的薪水salary涨幅值growth
  4. 二分查找以及数组下标的移动规律
  5. 体温监测行业调研报告 - 市场现状分析与发展前景预测
  6. input 模糊匹配功能 文本框模糊匹配(纯html+jquery简单实现) demo
  7. linux下qt加载boost,信号槽的实现实例—— Qt 和 Boost
  8. 文本加密算法matlab,matlab希尔加密算法
  9. JAVA Swing GUI设计 WindowBuilder Pro Container使用大全7——JDesktopPane使用
  10. “我创业成功的十大秘诀”