从直觉上看,数据貌似很好理解,但真正要说清楚数据这个词却有点困难。

想一想,数据到底是什么呢?

数据的定义实际上包含两方面内容,即信息的符号和设计。
其中信息的设计,也就是数据的格式,决定了读者从中获取有效信息的难易程度。
人们经常忽略的一个事实——数据的格式和数据本身同等重要。

生物信息学中的数据

传统的生物学家可能会认为,生物信息学是一种将数据转换成结果的软件。
实则不然,生物信息学只是将一种格式的数据,转换成另一种格式的数据。
这种格式转换往往带来信息的综合和优化。

数据格式
生物信息学中几种常见的数据格式:
1、GenBank
2、Fasta
3、FastQ
4、BED/GFF/GTF
5、SAM/BAM

1.GenBank

文件后缀为.gb/.genbank,GenBank 是一种符合人们阅读习惯的数据格式。

GenBank示例文件


GenBank分类简称

眼尖的朋友一眼就发现了,GenBank示例文件展示的正是肆虐全球的新冠病毒(SARS-CoV-2)的基因组信息
如果了解新冠亚单位疫苗研制原理的小伙伴,大概会知道上面展示的 S 蛋白(spike glycoprotein),其受体结合区(RBD)片段含有多个 B 细胞和 T 细胞的表位,属于理想的靶标抗原。

然而重组得到的靶蛋白免疫原性较差,往往需要经过一定的优化才能刺激机体产生足够的抗体。

高福院士团队通过二聚化 RBD 片段及免疫佐剂的配合,弥补了重组蛋白免疫原性差的短板,并成功诱导小鼠产生大量中和抗体[1]。

另外,目前世界大流行的新冠病毒 Delta 变异株,正是 S 蛋白的氨基酸位点发生了突变导致的[2]。

可见 GenBank 是一种相当复杂的存储格式,存储了丰富的生物信息。

2.Fasta

文件后缀通常为.fa/.fasta/.fna/.seq,可以记录类似于 GenBank 中的序列信息。

Fasta 示例文件——新冠病毒 M 蛋白的基因序列

Fasta 文件包含序列的注释信息行和碱基序列行


3.FastQ

文件后缀为.fq/.fastq,用于存储测序仪经过测序实验读取到的碱基信息,可以看作是带有碱基质量评分的 Fasta 文件。

Fastq 文件中每 4 行为一条 read 的测序记录

FastQ 示例文件

4.BED/GFF/GTF

这一类数据主要用于记录基因组中特定区间的坐标信息,列之间以制表符(TAB)分隔,如基因(gene)、编码区序列(CDS)和非编码区(UTR)等。

BED
3 列的 BED 文件包括染色体、起始和终止

6 列的 BED 文件增加了名称、值和链方向

GFF/GTF
文件通常包含 9 列,以制表符分隔。
P.S. BED文件的坐标有效起始值是0,GFF/GTF的有效起始坐标是1

GFF 示例文件

GTF 与 GFF 文件的差异在第 9 列,GTF 的第 9 列必须是包括 gene_id 和 transcript_id 才是有效的格式。

5.SAM/BAM

BAM 文件是 SAM 文件的二进制格式,两种文件都包含了 reads(FastQ)比对到参考基因组(Fasta)的信息。

一般包括下面11列信息,详见:https://samtools.github.io/hts-specs/SAMv1.pdf

Linux下安装使用samtools查看BAM文件

若是SAM文件可先用samtools view进行转换

有时候需要用到BAM的索引文件,需要先用samtools sort命令排序,再调用samtools index为BAM文件建立索引。

参考文献
[1] Dai L, Zheng T, Xu K, et al. A Universal Design of Betacoronavirus Vaccines against COVID-19, MERS, and SARS. Cell. 2020;182(3):722-733.e11. doi:10.1016/j.cell.2020.06.035
[2] Korber B, Fischer WM, Gnanakaran S, et al. Tracking Changes in SARS-CoV-2 Spike: Evidence that D614G Increases Infectivity of the COVID-19 Virus. Cell. 2020;182(4):812-827.e19. doi:10.1016/j.cell.2020.06.043

BGI-College生信入门系列——2、什么是数据?相关推荐

  1. 学习生信的系列教程 | 留言您是如何学习生信的免费获取北大出版《Python数据分析》书籍...

    生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题.但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程 ...

  2. 生信入门:序列比对之blast在线和本地使用

    主要内容 1 背景 2 在线blast 3 本地blast 3.1 老版本blast 3.2 新版本blast 背景 序列比对(Sequence Alignment)的基本问题是比较两个或两个以上序列 ...

  3. 生信入门(二)——使用limma、Glimma和edgeR,RNA-seq数据分析

    生信入门(二)--使用limma.Glimma和edgeR,RNA-seq数据分析 文章目录 生信入门(二)--使用limma.Glimma和edgeR,RNA-seq数据分析 一.简介 二.数据背景 ...

  4. 生信入门(四)——使用DESeq2进行RNA-seq数据分析

    生信入门(四)--使用DESeq2进行RNA-seq数据分析 文章目录 生信入门(四)--使用DESeq2进行RNA-seq数据分析 一.学习目标 二.实验数据 1.数据来源 2.建模计数数据 3.转 ...

  5. 生信入门(五)——使用DESeq2进行RNA-seq数据分析

    生信入门(五)--使用DESeq2进行RNA-seq数据分析 文章目录 生信入门(五)--使用DESeq2进行RNA-seq数据分析 四.探索性数据分析 1.简单EDA 2.EDA 的数据转换 3.主 ...

  6. 生信入门(六)——单细胞分析(Seurat)

    生信入门(六)--单细胞分析(Seurat) 文章目录 生信入门(六)--单细胞分析(Seurat) 一.数据导入 1.数据来源 2.数据导入 二.标准预处理 1.QC和选择细胞进行进一步分析 2.规 ...

  7. 生信人的一天~HIFI数据+HIC数据组装基因组

    HIFI加HIC数据组装基因组遇坑记@TOC 最近有一个大项目(大难题)自学基因组组装 生信入门这么久,一直都是使用别人处理好的数据,何时我才能产出自己的数据呢??? 干-- --实验想要自己产出数据 ...

  8. 【Python零基础快速入门系列 | 03】AI数据容器底层核心之Python列表

    • 这是机器未来的第7篇文章 原文首发地址:https://blog.csdn.net/RobotFutures/article/details/124957520 <Python零基础快速入门 ...

  9. 【Python数据科学快速入门系列 | 06】Matplotlib数据可视化基础入门(一)

    这是机器未来的第52篇文章 原文首发地址:https://robotsfutures.blog.csdn.net/article/details/126899226 <Python数据科学快速入 ...

最新文章

  1. 设计MM32-LINK自动复位器,上电复位
  2. gin context和官方context_Go Web 小技巧(一)简化Gin接口代码
  3. ignite mysql_redis、ignite、mysql memory 内存数据库性能测试对比
  4. 克隆git文件_如何在Git中克隆,修改,添加和删除文件
  5. elixir 关键字列表
  6. 使用skin++进行MFC界面美化范例
  7. Go Elasticsearch 增加快速入门
  8. 【Java基础】使用NumberFormat 、DecimalFormat进行数字格式化
  9. 详解-黑莓7290激活教程
  10. 【商品架构day4】十年前淘宝商品系统怎么做平台化
  11. Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise【重点笔记】
  12. xhEditor入门基础
  13. java apktool if_apktool使用教程
  14. 金山WPS c++ 一面面经
  15. 《清单革命》:让大脑处理更重要的事情
  16. unity3d学习笔记-动画(3.导入动画)
  17. CV2逐步学习-2:cv2.GaussianBlur()详解
  18. C. Carrying Conundrum(思维)
  19. 物联网是什么?物联网指的是哪些?
  20. 自媒体视频剪辑中的那些素材到哪里找?

热门文章

  1. 【MAX78000基础案例演示】
  2. 全国青少年信息技术与计算机思维能力,全国信息技术和青少年计算思维评测 (编程基础组一级考试) 样题...
  3. 【大厂面试】面试官看了赞不绝口的Redis笔记
  4. 下载 axios.js 文件到本地
  5. 2022年人工智能在药物发现领域的技术进展
  6. 手机搜狐 html5,手机搜狐欲改版推全新域名及LOGO 着力Html5
  7. mysql重新设置主键生成策略为auto_increment时报错:resulting in duplicate entry '1' for key 'PRIMARY'
  8. BYOD 2.0的安全管理:MAM
  9. “da shen” in my heart
  10. 一般能ping通自己的IP ,但是ping 不通网关,也ping不通别的主机IP