NCBI于2000年发起的基因表达汇编(GEO)计划。致力于建立一个基因表达数据仓库和在线资源,用于从任何物种或人造的来源检索基因表达数据。

GEO主要包含各种芯片数据,也有少部分测序数据,与TCGA的差别在于TCGA只包含人的数据,而GEO是多物种的,GEO上有各种平台的数据,而TCGA只有测序数据,芯片数据的数据量较小,而TCGA的测序数据数据量较大。

GEO提供的数据类型

Series: 多个样本连接成一个完整的研究数据集,并提供了整个研究的描述,包括对数据的描述,总结分析。目前共有96445个研究。

Platforms: 用户提交给GEO数据中涉及到的芯片/测序平台,目前GEO上包含了18300种平台的数据。

Samples:用户提交给GEO的样本数据,目前平台上共有2439709个样本

DataSets: GEO工作人员根据用户提交的数据整理后得到的数据集,类似于TCGA的level4数据,目前共有4348个。

Profiles:GEO工作人员根据用户提交的数据整理后的数据,倾向于某个基因在不同数据集中的表单情况。

GEO数据检索

GEO数据库支持关键字检索和布尔逻辑,和使用pubmed非常相似,一般我们检索都是DataSets数据。

比如图中红色标记处都是可以各种定制化设置条件以检索自己想要的内容。

以寻找带有预后信息的胃癌数据集为例。

GEO数据检索胃癌数据

胃癌关键字有:gastric carcinoma,gastric cancer,Stomach Cancer,STAD

临床信息关键字:Clinical,Survival

检索数据结果注意

1、数据平台

2、样本量

3、数据集关联研究

简单看数据描述信息,做到心里有数,比如这套数据集用来做了什么,从Summary里面可以看出大概。

GEO数据下载

检索到数据集之后面临的是怎么下载数据,GEO数据是可以直接在线下载的,非常简单,同时GEO提供了多种数据的下载格式,主要有四种形式:

1、SOFT格式的数据

2、MINIML格式的数据

3、矩阵形式的数据

4、芯片原始数据

GEO数据下载格式

1、SOFT格式和MINIML格式的数据下载的是一个压缩包,解压之后里面有各个样本的单独的表达数据,还有平台的注释数据以及样本信息,其中样本信息是XML文件,其他为TXT格式的数据。

2、矩阵格式的数据下载后是一个压缩包,解压之后是一个TXT文件,可以使用Excel打开,样本信息都包含在里面。

3、无论是哪种数据,矩阵中的信息都是探针的,下载后需要重新处理。

4、GEO国内访问比较慢,在下载数据时经常会断或者会存在数据丢失。

geo mysql_GEO数据库及应用场景介绍相关推荐

  1. Redis数据库的应用场景介绍

    https://www.jb51.net/article/68262.htm 一.MySql+Memcached架构的问题 实际MySQL是适合进行海量数据存储的,通过Memcached将热点数据加载 ...

  2. Redis八种数据类型及应用场景介绍

    本文来说下Redis八种数据类型及应用场景介绍 文章目录 概述 String 介绍 应用场景 Hash 介绍 应用场景 List 介绍 应用场景 Set 介绍 应用场景 ZSet 介绍 应用场景 Bi ...

  3. GEO/SRA数据库

    关于GEO/SRA数据库 GEO数据库 GEO数据库隶属于NCBI,是最大最全面的基因表达数据库,主要是芯片和转录组测序数据.除储存数据外,也提供一些数据挖掘工具,因此利用好这个数据库,没有实验,没有 ...

  4. Redis数据库(一)——介绍、配置与优化

    Redis数据库(一)--介绍.配置与优化 一.关系数据库与非关系型数据库 1.关系数据库 2.非关系型数据库 3.关系数据库与非关系型数据库区别(三个方向) 数据存储方式不同 扩展方式不同 对事务性 ...

  5. 从Client应用场景介绍IdentityServer4(一)

    从Client应用场景介绍IdentityServer4(一) 原文:从Client应用场景介绍IdentityServer4(一) 一.背景 IdentityServer4的介绍将不再叙述,百度下可 ...

  6. 从Client应用场景介绍IdentityServer4(二)

    从Client应用场景介绍IdentityServer4(二) 原文:从Client应用场景介绍IdentityServer4(二) 本节介绍Client的ClientCredentials客户端模式 ...

  7. (1)大数据和应用场景介绍

    专栏目录 (1)大数据和应用场景介绍 (2)大数据技术综述总结 (3)HDFS原理与高可用技术原理介绍 (4)Yarn架构.资源管理原理和运维技术介绍 (5)Kafka原理和高可用介绍 1.大数据基本 ...

  8. 数据库入门理论知识介绍以及编译安装MySql

    数据库入门理论知识介绍以及编译安装MySql 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 前言: 1.目前90%以上的公司面临的运维的瓶颈都在后端 最常见的2大瓶颈就是: 1&g ...

  9. 分析型数据库 AnalyticDB学习 ----基本介绍

    分析型数据库 AnalyticDB学习 ----基本介绍 AnalyticDB简介 阿里巴巴自主研发的海量数据实时并发在线分析的云计算服务,可以在毫秒级针对千亿级数据进行多维分析和业务探索.具备海量数 ...

最新文章

  1. Eclipse NDK 配置,无需安装Cygwin
  2. 设置VSCode快捷键vue生成代码片段
  3. pycharm ctrl+shift+F 全局搜索失灵怎么办?(输入法关闭简繁体输入切换)
  4. Mosaic获5.5亿美元住宅太阳能融资贷款
  5. 模板:拉格朗日插值(多项式)
  6. win8系统的计算机共享在哪里设置方法,win10系统设置与win8系统局域网文件共享的方案...
  7. mvc的Controller返回值类型ActionResult详解
  8. Python实现文件md5校验
  9. 847方波放大电路_分析运放7大经典电路,有图有真相,详解每个电路原理!
  10. 结语|日拱一卒无有尽,功不唐捐终入海
  11. mysql在可视化软件navicat中如何解决中文乱码问题
  12. 20175236 2018-2019-2 《Java程序设计》第六周学习总结
  13. java队列类_用Java编写一个队列类
  14. 删除ubuntu后修复win7系统的引导
  15. 64位Sql Server 2005开发版于64位Windows7旗舰版 安装过程
  16. 计算机图形学最新发展的技术,浅析计算机图形学应用及技术发展趋势.doc
  17. Windows XP IIS 500错误
  18. 三年半 Java 后端鹅厂面试经历
  19. vs code python插件_vs code Python code runner配置 , 飞跃|Fly
  20. eclipse资源文件搜索如何去掉class文件

热门文章

  1. 【陈工笔记】# 玩转电脑桌面的神器,让每一天不枯燥 #
  2. java lamda 常用写法 List篇
  3. php connection reset,connection reset by peer问题总结及解决方案
  4. 内存脏数据下刷(linux2.6.18/linux.2.6.32)剖析
  5. java实现通讯录管理系统
  6. 创新sb live!系列声卡型号大全 (引)
  7. html5前端开发培训机构,CSS外边距塌陷问题
  8. 自动驾驶毫米波雷达物体检测技术-硬件
  9. 分段函数用python表达_python文章分段
  10. IaaS、PaaS、SaaS、BaaS和FaaS英文全称以及解释说明