google bigquery数据下载
前几天有个任务
已有材料和工具:
https://cloud.google.com/blog/products/gcp/google-patents-public-datasets-connecting-public-paid-and-private-patent-data
输出:国家专利数据
思考:
Google cloud platform没有了解,bigquery是云端数据库,也没有接触过
步骤:
1.注册google cloud platform账号,谷歌云平台是收费平台,但是新用户注册会赠送300美金,试用期是一年,这一年内只要300美金没有用完都是免费的,注册就按照流程来就好了,但是需要信用卡,visa什么的
点击免费试用,即可按照流程注册
2.注册完成,转到控制台
这就是GCP console的首页,里面有各种信息
3.新建项目,新用户进来后会自动让你创建一个项目,在GCP中,所有的资源利用都是以项目为模块的
如果想要自己创建项目,点击
点击test旁边的下三角,里面有创建项目的选项
4.角色设置
这里的角色就是对操作项目的人的权限进行管理,我们后续可能会有转存数据表到storage中的操作,就需要有创建数据表的权限,打开IAM界面,在左侧的三道杠杠中找到IAM和管理,点击IAM
这里列出了这个项目里现有成员,你也可以自行添加成员,角色方面,根据需要,自己添加需要的角色,比如我们对bigquery进行操作,点击修改按钮后,找到bigquery,我们可以选择管理员,数据编辑者等等,如果对这些权限不了解,可以点击页面的问号,自己搜索
遇到任何问题,搜索关键字,基本都能在gcp文档中找到答案
5.找到bigquery页面,点击屏幕左上角的三道杠杠下拉,
6.bigquery页面
页面左上部分是操作,左下部分是资源树,我们最开始需要的patents-public-data已经自动加载进去了,如果没有的话,点击框框自行搜索
右上部分是查询编辑器,可以写sql语句对数据表进行操作,右下部分是返回记录什么的
7.查询
找到我们需要的数据表
Patents-public-data.patents数据表
7.1查看这个表发现有800多G,不行,果断选择其中的必要的几列进行下载,因为是按照国家来分,所以先查找这个数据表里包含多少国家信息
#SELECT
#distinct country_code
#from
#`patents-public-data.patents.publications`
返回一个临时表
我们可以将它下载到本地
直接下载的话有行数限制,不管是CSV还是json文件,但是我们这个只有一百行,没问题
7.2下一步就是挨个国家进行查询
SELECT
country_code,kind_code,application_kind,family_id,publication_date,filing_date,cpc.code as cpc_code,ipc.code as ipc_code
FROM
`patents-public-data.patents.publications` p
cross join unnest(p.cpc) as cpc
cross join unnest(p.ipc) as ipc
where
country_code= 'CN'
8 转存
查询出来的结果非常大,无法直接下载,这也是最困扰我的地方,google之后,在Stack Overflow上提问,一个大神给我提供了解决方案
先将结果存到自己的数据集中,然后转存到Google storage中,在storage中下载到本地是没有大小限制的,这个google storage就是一个云盘,
8.1创建属于自己的数据集
左下方找到自己项目名称,点击右侧的创建数据集
名称自己随便取,但是位置有要求,必须要与你查询的数据集在同一位置,就是说patents-public-data位置是US
8.2 将查询好的表存入自己的数据集
可以看到我们查找到关于中国的数据有好多好多行,选择bigquery表
表名我们自己定,选择保存
8.3 导出 准备 创建storage分区
在左侧找到storage,点击浏览器,如果不知道怎么创建,选择入门教程
我们点击创建
根据提示一步一步来,创建好存储分区patents-test
8.4 存储
选择导出到GCS
GCS位置patents_test是我们的分区,接下来我们在创建一个文件夹存储关于China的csv,有一个限制就是单个文件不能超过1G,所以我们要用通配符-*来让它自动分开
https://cloud.google.com/bigquery/docs/exporting-data#exporting_data_into_one_or_more_files
我们点击导出
8.5 下载
我们进入storage的分区,看到已经保存成功了,准备下载
单个下载的话
只需要点击右侧的三个点,下载即可,如果想批量下载,
https://cloud.google.com/storage/docs/downloading-objects
需要用到GCP sdk,这里附上安装教程
https://cloud.google.com/sdk/docs/
按照教程安装好之后,也初始化好了,只需要执行一条命令
便可以自动下载了
OK了
最后说一句,对于一个全新的东西,要想好好了解它,别抵触,先别想着谁能帮帮我,先去看看文档,然后想想我学会了我能帮帮谁
附上google cloud platform的总文档地址 https://cloud.google.com/docs/
Bigquery文档地址 https://cloud.google.com/bigquery/docs/
反正是够折磨我的
google bigquery数据下载相关推荐
- 如何使用Python访问和查询Google BigQuery数据
要使用Python查询Google BigQuery数据,需要将Python客户端连接到BigQuery实例. 将会云客户端库用于Google BigQuery API. 假设您已经设置了Python ...
- Google BigQuery 数据集下载示例
Google BigQuery 公开数据集网站: https://cloud.google.com/bigquery/public-data/ java 客户端下载 https://cloud.goo ...
- bigquery_到Google bigquery的sql查询模板,它将您的报告提升到另一个层次
bigquery In this post, we're sharing report templates that you can build with SQL queries to Google ...
- Google Earth Engine 学习7---ASTER GED 地表发射率数据下载
Google Earth Engine 学习7-ASTER GED 地表发射率数据下载 The Advanced Spaceborne Thermal Emission and Reflection ...
- Google Earth Engine(GEE)——全球12级流域矢量数据免费下载(含数据下载链接)
HydroBASINS代表了一系列矢量多边形图层,在全球范围内描述了子流域的边界.该产品的目标是在全球范围内无缝覆盖不同尺度(从几十平方公里到几百万平方公里)的大小一致.分层嵌套的子流域,并由一个编码 ...
- bigquery使用教程_如何使用Python和Google BigQuery构建机器人以自动执行您的笨拙任务...
bigquery使用教程 Do you have repetitive tasks? Something that you do regularly, every week or even every ...
- Facebook WhatsApp开放「数据下载」;iPhone需求疲软引发恐慌;今日头条「更名」| CSDN 极客头条...
点击上方"CSDN",选择"置顶公众号" 关键时刻,第一时间送达! 「CSDN 极客头条」是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报 ...
- MODIS数据下载,HEG批量拼接处理,arcmap批量掩膜提取,python栅格计算
前言: 2022.12.30修改:补Python编程基础的过程中发现使用Print也可以向文件里写东西,查看写过的代码,然后发现HEG批量拼接处理代码中有的地方在复制粘贴至博客的时候出现了缩进错误,评 ...
- FROM_GLC的介绍与数据下载教程
1.数据介绍 1.1 数据简介 宫鹏老师团队基于Google Earth Engine平台,使用到全球13万个样本点,利用随机森林分类方法对Sentinel-2影像,进行了2017年的10米分辨率全球 ...
- 美国国家气候数据中心(NCDC)数据下载与处理
1.数据下载网址: ftp://ftp.ncdc.noaa.gov/pub/data/noaa/isd-lite/ 注:用Google Chrome浏览器打开 数据源为NCDC(美国国家气候数据中心, ...
最新文章
- java中集合的模型特点_Java 学习笔记(十四)集合
- 记一笔冒泡排序和对它的优化
- 接口测试工具postman安装及使用
- 【机器学习】因子分解机(FM) 原理及在召回中的应用(python实现)
- HTTP简介,http是一个属于应用层的面向对象的协议
- mongodb MapReduce
- Bitcoin是什么意思
- Python计算机视觉中译本实例代码/数据集
- 67. 可伸缩的 Comet
- python编程*三角形图形创意图片_Python图形编程探索系列-04-网上图片与标签组件的结合...
- android ogg资源,Android实现OGG音频的无缝循环播放
- 方剂学(综合练习)题库【1】
- 微软E5账号OneDrive无法扩容解决方案(亲测有效)
- 阿里ESC7天训练营---搭建FTP服务
- ECMAScript 6 基本(未完待续)
- MySQL流水账(一)
- revit开发之判断两条直线是否平行
- securecrt 连接配置存放目录_SecureCRT上传和下载文件(下载默认目录)
- Windows网络编程初步
- Cannot read property 'xxx' of undefined