全文共2024字,预计学习时长6分钟

来源:Pexels

注意:谷歌的新数据集搜索工具已于2020年1月23日问世。

疫情防控阶段,大家的“寒假“越过越长,这么“长”时间的寒假能做些什么呢?

最近,谷歌发布了免费工具datasetsearch,它可以搜索2500万个公开可用的数据集。

搜索工具包括过滤器,可基于许可证(免费或付费)、格式(csv,图像等)和更新时间限制结果。

结果还包括对数据集内容的描述以及作者的引用。

谷歌的数据集聚合方法不同于其他数据集存储库(如亚马逊的开放数据注册表)。与其他自行管理和托管数据集的存储库不同,谷歌不会直接管理或提供2500万个数据集的访问权限。

取而代之的是,谷歌依靠数据集发布者,使用 schema.org的开放标准描述其数据集的元数据。然后,谷歌索引元数据,并使其在发布者之间可搜索。

发布者仍需自己托管数据集,因此符合schema.org标准的营利性发布者也将使用谷歌为其数据集建立索引。根据以往经验,笔者发现,搜索与市场相关的数据集时,其百分比更高,搜索结果中约有一半的数据集来自营利性聚合器。

该平台上其他受欢迎的数据集发布者包括政府机构和研究机构。谷歌声称,仅美国政府机构就已经发布了超过200万个数据集。

据谷歌统计,大多数数据集涉及”地球科学、生物学和农业领域。”

简单使用schema.org的开放标准即可发布自己的数据集。越来越多的出版商遵守该标准,公开可用的数据集的数量可能会持续增长。

目前,谷歌未提供用于搜索或下载免费数据集的API。

网上数百万个数据集出没

在网络上,用户感兴趣的任何主题,几乎都有数百万个数据集。如果想购买一只小狗,可以查找数据集来汇总买家的投诉或查找对小狗认知度的研究。或者,如果喜欢滑雪,可以查找有关滑雪胜地收入或受伤率及受伤人数的数据。Dataset Search 已为其中近2500万个数据集建立了索引,可以在一个地方搜索数据集并查找指向数据所在位置的链接。在过去一年里,人们对其进行尝试并提供了反馈,现在DatasetSearch正式退出测试版。

查询“滑雪”的一些搜索结果,涉及最快滑雪者的速度以及滑雪胜地收入的数据集。

Dataset Search有何创新之处?

根据从DatasetSearch早期试用版中得到的反馈,开发者添加了新功能。现在,根据所需的数据集类型(例如表格、图像、文本)或是否可以从提供商处免费获得数据集,就可以过滤结果。如果数据集是关于某个地区的,可以查看地图。另外, 该产品现在可以在移动设备上使用,并且数据集描述的质量得到了极大改善。然而,一件事情没有改变:发布数据的任何人都可以使用开放标准(schema.org)在自己的网页上描述其数据集的属性,从而使人们在搜索中可以发现数据集。

开发者还了解到有不同类型的人在寻找数据。有一些学术研究人员正在寻找可以支持其假设的数据(例如:尝试催产素)、学生查找表格形式并涵盖其高级论文主题的免费数据(例如:尝试使用相应过滤器的监禁率)、业务分析师和数据科学家寻找有关移动应用程序或快餐店等的信息。所有这些都有数据!用户都搜索什么呢?最常见的查询包括“教育”、“天气”、“癌症”,“犯罪”、“足球”和“狗”。

上图为查询“快餐店”的一些搜索结果。

在Dataset Search里有哪些数据集?

Dataset Search还提供了网上数据的快照。此处有一些亮点。数据集涵盖的最大主题是地球科学、生物学和农业。世界上大多数国家的政府都会发布数据,并使用schema.org对其进行描述。美国可用的开放政府数据集超过200万,在数量上遥遥领先。最受欢迎的数据格式是什么?用户可以在DatasetSearch中找到超过600万张表格。

在Dataset Search中找到的数据集数量持续增加。如果站点上有一个数据集,并使用开放标准schema.org对其进行了描述,其他人可以在DatasetSearch中找到它。如果知道一个数据集存在,但是在DatasetSearch中找不到它,请要求提供者添加schema.org描述,其他人也将了解他们的数据集。

未来何去何从?

来源:Pexels

DatasetSearch已退出测试版,但无论产品是否有“测试版”,改进都将继续。快下载体验DatasetSearch吧!

留言 点赞 关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

谷歌刚刚发布了2500万个免费数据集,快来了解一下相关推荐

  1. 重磅!谷歌刚刚发布Objectron新数据集,可完美检测3D目标,超过4百万幅图像和15K视频剪辑!...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 本文转载自:新智元  |  编辑:QJP [导读]谷歌人工智能实验室近日发布 Objectron 数据 ...

  2. 谷歌AI发布“会动的”3D物体数据集,附带标记边界框、相机位姿、稀疏点云,网友:快给我的AR模型用上...

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 见过3D物体数据集,见过会动的3D物体数据集吗? 每段动态视频都以目标为中心拍摄,不仅自带标注整体的边界框,每个视频还附带相机位姿和稀疏点云 ...

  3. 2500万美元和AI专家!谷歌出钱出人,要用AI做“对社会有益”的事情

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 今天凌晨,谷歌宣布拿出2500万美元资助一些对社会有益的AI项目,叫做"AI for Social Good".顾名思义 ...

  4. 快手近5000员工成千万富翁;王卫自掏2500万给员工发红包,顺丰拿6.5亿元激励留岗员工;小米发布四曲瀑布屏概念手机|技术圈报...

    点击上方 "编程技术圈"关注, 星标或置顶一起成长 后台回复"大礼包"有惊喜礼包! 每日英文 Sometimes, if you persist in doin ...

  5. 微软 SQL Server 2019 将免费支持 Java;Rancher Labs获2500万美元融资;腾讯云进军日本市场……...

    关注并标星星CSDN云计算 极客头条:速递.最新.绝对有料.这里有企业新动.这里有业界要闻,打起十二分精神,紧跟fashion你可以的! 每周三次,打卡即read 更快.更全了解泛云圈精彩news g ...

  6. 黄仁勋刚刚发布全球最大GPU:Quadro GV100 售价仅39.9万美元

    文章来源:ATYUN AI平台 英伟达再一次惊艳全球! 在美国加州圣何塞举行的GTC 2018大会上,英伟达黄仁勋发布了全球最大的GPU. 会上,黄仁勋首先介绍了英伟达在图像实时光线追踪处理方面的最新 ...

  7. 曝华为新成立10大预备军团;被罚2500万欧元,苹果开放第三方支付;GitLab 14.8发布 | 极客头条...

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 苏宓 出品 | CSDN(ID:CSDNnews) ...

  8. OPPO 回应“不务正业”生产口罩;旧款 iPhone 降速被罚 2500 万欧元;Angular 9.0.0 发布| 极客头条...

    整理 | 屠敏 快来收听极客头条音频版吧,智能播报由标贝科技提供技术支持. 「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注 ...

  9. 百分点宣布完成C轮融资2500万美元 将进一步开放云平台应用

    ZDNET至顶网CIO与应用频道 07月28日 北京消息:上周五,大数据技术与应用服务商百分点集团在北京召开"大数据践行者-2014百分点大数据产品暨C轮融资发布会",百分点创始人 ...

最新文章

  1. TitanDB GC详细实现原理 及其 引入的问题
  2. OpenCV+Tensorflow实现实时人脸识别演示
  3. Mac OS X 在Finder新建文本文件
  4. [Android] 给图像加入相框、圆形圆角显示图片、图像合成知识
  5. 用微软安全工具加固网站安全 (URLScan Tool IIS Lock Tool)
  6. Spark MaprLab-Auction Data分析
  7. 递归 与 动态规划 区别
  8. APP自动化测试系列之3种元素定位工具
  9. CN笔记:第一章 计算机网络概述
  10. CocoaPods 添加第三方库报错
  11. python3修改文件内容_使用python 修改文件内容
  12. 什么是游戏盾,如何使用
  13. 微信时代的巨大冲击 QQ空间面临艰难转型
  14. DIY ROV系列(五)水下机器人通信系统
  15. 金工计算机测试题,金工考试题精选.doc
  16. mStar 6A648 双 WiFi
  17. 世界末日那天,我们才能拿到Lytro的光场相机
  18. 《摔跤吧!爸爸》—同样伟大的妈妈
  19. 推荐7个Python自动化办公免费学习资源~(数据分析、Python、VBA等)
  20. 屏幕测试软件当贝,2018三款智能电视屏幕检测软件,当贝市场良心推荐

热门文章

  1. oracle em13c配置,EM13C添加agent记录两个报错
  2. 23计算机考研22408上岸武汉理工大学经验贴
  3. 怎样搭建后缀是.gitee.io的网站?如何免费在码云Gitee中部署个人静态网站?(或者个人博客)如何建立免费网站?
  4. 字节码:ASCII编码:单字节编码,ANSI编码:多字节编码,UNICODE编码:宽字节编码
  5. 群晖的home和homes共享文件夹介绍
  6. 作为高校老师,该如何兼顾教学与科研?
  7. GoLang之iface 和 eface 的区别是什么?
  8. 阿里云短信验证服务详细基础教程
  9. linux网卡恢复默认配置,Linux网卡的配置
  10. docker swam单机启动多个springboot实例,log挂载问题