​由于受目前测序水平的限制,基因组测序时需要先将基因组打断成DNA片段,然后再建库测序。reads(读长)指的是测序仪单次测序所得到的碱基序列,也就是一连串的ATCGGGTA之类的,它不是基因组中的组成。不同的测序仪器,reads长度不一样。对整个基因组进行测序,就会产生成百上千万的reads。

测序得到的原始图像数据经 base calling 转化为序列数据,我们称之为 raw data 或 raw reads ,结果以 fastq 文件格式存储, fastq 文件为用户得到的最原始文件,里面存储 reads 的序列以及 reads 的测序质量。在 fastq 格式文件中每个 read 由四行描述:

@read ID
TGGCGGAGGGATTTGAACCC
+
bbbbbbbbabbbbbbbbbbb
  • Single-end(SE)测序:1个fastq文件

  • Pair-end(PE)测序:2个fastq文件分别存放read1和read2的数据

每个序列共有4行,第1行和第3行是序列名称(有的 fq 文件为了节省存储空间会省略第三行“+”后面的序列名称);第2行是序列;第4行是序列的测序质量,每个字符对应第2行每个碱基,第4行每个字符对应的 ASCII 值减去64,即为该碱基的测序质量值,比如 h 对应的 ASCII 值为104,那么其对应的碱基质量值是40。
碱基质量值范围为0到40。下表为 Solexa 测序错误率与测序质量值简明对应关系,具体计算公式如下:

Q = -10 log10P

Solexa测序错误率与测序质量值简明对应关系:

高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是原始数据;

有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig;

多个contigs通过片段重叠,组成一个更长的scaffold;

一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton;
多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene.

生物信息分析中的reads是什么相关推荐

  1. 临床外显子组测序分析中的那些坑(下)

    临床外显子组测序分析中的那些坑(上) 临床外显子组测序分析中的那些坑(中) 4.还记得嵌合吗 二代测序数据分析中已经提到的另一个挑战是嵌合SNV和CNV的出现.嵌合SNV已被证明与许多疾病相关.事实上 ...

  2. 临床外显子组测序分析中的那些坑(上)

    大规模并行测序技术或下一代测序已成为基因诊断和研究的标准技术,尤其是外显子组和基因组测序现在已经在世界范围内广泛应用于患者的分子诊断.在过去几年中,许多实验室都在努力应对基于全新技术建立基因检测工作流 ...

  3. Galaxy生物信息分析平台的数据集对象清理

    由于微信不允许外部链接,你需要点击文章尾部左下角的 "阅读原文",才能访问文中链接. Galaxy Project 是在云计算背景下诞生的一个生物信息学可视化分析开源项目.该项目由 ...

  4. 基因测序、生物信息分析平台工作站硬件配置推荐2020

    (一)了解生物信息学 生物信息学(Bioinformatics)利用应用数学.信息学.统计学和计算机科学的方法研究生物学的问题.生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机, ...

  5. 临床外显子组测序分析中的那些坑(中)

    临床外显子组测序分析中的那些坑(上) 4. Exome CNV分析:参考对照组 很早以前,人们就清楚WES还可以根据样本之间序列覆盖深度的差异来推断CNV.由于序列捕获和GC含量,单个目标的覆盖率偏差 ...

  6. 生物信息学软件_基因测序、生物信息分析平台工作站硬件配置探讨2020

    一)(一)了解生物信息学 生物信息学(Bioinformatics)利用应用数学.信息学.统计学和计算机科学的方法研究生物学的问题.生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算 ...

  7. 生信技能9 - 生物信息分析必须掌握的生物学基本概念(建议收藏)

    生物信息分析必须掌握的生物学基本概念,在实际项目中都是必须储备的知识.建议收藏! 基因 具有特定遗传信息的DNA片段,分为三类:1)编码蛋白质,具有转录和翻译功能,即编码序列:2)只具有转录而无翻译功 ...

  8. 宏基因组测序结果分析中的名词汇总

    写在前面:小编最近刚入门宏基因组学分析,你是否也像我一样拿到数据一直像无头苍蝇,自己摸索学习的知识也是东拼西凑不成系统,迫切的想发文章却迟迟写不出来?今天小编就来汇总一下,那些宏基因组测序结果中你还不 ...

  9. 生物信息分析:从入门到精通结语

    生物信息分析:从入门到精(fang)通(qi)结语:入门生信一时爽,一直分析一直爽 GeneDock聚道科技 为生命计算,助看病不难! 已关注 王焕威 等 8 人赞同了该文章 生信小白:服务器.超算. ...

  10. 生物信息分析全景介绍

    生信分析全景介绍 概述 基因测序可以分为"湿"实验和"干"实验两个阶段.其中"湿"实验指的是将待测样本利用实验室方法进行核酸提取.文库构建( ...

最新文章

  1. android 详解画图,android画图之贝塞尔曲线讲解详解
  2. 查看ORACLE 下所有信息
  3. 144. Binary Tree Preorder Traversal 二叉树的前序遍历
  4. python开发基础教程
  5. IOS学习之路七(使用 Operation 异步运行任务)
  6. 鸿蒙系统手机现在有什么,华为鸿蒙手机迟迟未来 手机操作系统面临的难点有哪些...
  7. 安卓学习笔记04:安卓平台架构
  8. 1.1.0-简介-P4-一致性、2PC和3PC
  9. 计算机安全日志,如何回复被删除的电脑安全日志
  10. Linux2.6信号管理
  11. 字符编码笔记:ASCII,Unicode和 UTF-8
  12. Windows版Tcpdump抓包工具
  13. 获取图片的十六进制颜色码(keynote/ppt取色器)
  14. Excel VBA小游戏,上班摸鱼必备
  15. 中国科学技术大学计算机考研好考吗,中国科学技术大学计算机考研复习方法谈...
  16. 南通大学报计算机等级考试,南通大学2017年上半年计算机等级考试报名时间
  17. Python Pandas 列数据筛选方法汇总
  18. flowchart流程图编程语言下载_flowchart.net
  19. 有哪些好用的App云测试平台
  20. 为什么越长大越不想过生日

热门文章

  1. arduino并口屏_Arduino教程 12864绘图功能库的使用(并口通信,仅适用ST7920)
  2. 多媒体计算机网络机房方案,学校多媒体教室及计算机机房方案1.doc
  3. word鼠标右下角有一个小方块_word
  4. 盘点五款值得收藏的 Linux 开发板
  5. jvm之java类加载机制和类加载器(ClassLoader)的详解
  6. SecureCRT for mac 破解安装
  7. 第六章 软件项目质量管理
  8. 每周经典电路分析:采样保持放大器(1)
  9. 2019年最好的7个人工智能聊天机器人
  10. web测试,APP测试和小程序测试特点