人全外显子组测序WES学习笔记

一.基础知识

1.名词释义

外显子: 外显子 (expressed region) 是真核生物基因的一部分,它在剪接 (Splicing) 后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟 RNA 中的基因序列,又称表达序列。既存在于最初的转录产物中,也存在于成熟的 RNA 分子中的核苷酸序列。在人类基因中大约有 180,000 外显子,占人类基因组的 1%,约 30 MB。

外显子组:基因组中的全部外显子称为外显子组。

全外显子测序:全外显子测序 (Whole Exome Sequencing, WES),也称目标外显子组捕获,是指利用序列捕获技术将全基因组外显子区域 DNA 捕捉并富集后进行高通量测序的基因组分析方法。是一种选择基因组的编码序列的高效策略,外显子测序相对于基因组重测序成本较低,对研究已知基因的 SNP、INDEL 等具有较大的优势。WES是一种基于NGS测序平台的一种检测方案。

高通量测序:高通量测序(High-Throughput Sequencing)又名下一代测序(Next Generation Sequencing,NGS),是相对于传统的桑格测序(Sanger Sequencing)而言的。

FASTA文件格式:在生物信息学中,FASTA格式(又称为Pearson格式)是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来表示,且允许在序列前添加序列名及注释。

FASTQ文件格式:FASTQ用于保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。 其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发。 目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的实施标准。

2.方法简介

1.FASTA文件格式:

2.FASTQ 格式文件中每个read由四行描述,如下:

  1. @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG

  2. GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT

  3. @@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF

每个序列共有 4 行信息:

  1. 第 1 行是序列名称,由测序仪产生,包含 index 序列及 read1 或 read2 标志;

  2. 第 2 行是序列,由大写 “ACGTN” 组成;

  3. 第 3 行是序列 ID ,也有省略了 ID 名称后直接用 “+” 表示;

  4. 第 4 行是序列的测序质量,每个字符对应第 2 行每个碱基;

二.生物信息数据分析流程

人全外显子组测序WES学习笔记 第一天相关推荐

  1. 临床外显子组测序分析中的那些坑(下)

    临床外显子组测序分析中的那些坑(上) 临床外显子组测序分析中的那些坑(中) 4.还记得嵌合吗 二代测序数据分析中已经提到的另一个挑战是嵌合SNV和CNV的出现.嵌合SNV已被证明与许多疾病相关.事实上 ...

  2. 临床外显子组测序分析中的那些坑(中)

    临床外显子组测序分析中的那些坑(上) 4. Exome CNV分析:参考对照组 很早以前,人们就清楚WES还可以根据样本之间序列覆盖深度的差异来推断CNV.由于序列捕获和GC含量,单个目标的覆盖率偏差 ...

  3. 影像组学视频学习笔记(43)-标准差、标准误及95%置信区间CI、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/f09d0f97592f 来源:简书,已获授权转载 本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(43)主要 ...

  4. 影像组学视频学习笔记(42)-影像组学特征提取问题解决过程复现、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/c3e6de2f79b3 来源:简书,已获转载授权 本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(42)主要 ...

  5. 影像组学视频学习笔记(41)-如何使用软件提取组学特征、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/72186eb3e395 来源:简书,已获授权转载 本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(41)主要 ...

  6. 影像组学视频学习笔记(37)-机器学习模型判断脑卒中发病时间(文献报告)、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/3e7a2c84288e 来源:简书,已获授权转载 RadiomicsWorld.com "影像组学世界" ...

  7. 影像组学视频学习笔记(23)-主成分析PCA、降维和特征筛选的区别、Li‘s have a solution and plan.

    本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(23)主要讲解: 主成分析PCA,影像组学降维和特征筛选的区别 0. PCA(Principal component analysis) ...

  8. 影像组学视频学习笔记(34)-使用3D Slicer软件提取影像组学特征、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/afcd06221ea4 来源:简书,已获授权转载 RadiomicsWorld.com "影像组学世界" ...

  9. 影像组学视频学习笔记[44(End)]-带95%置信区间的折线图、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/971eeaa03ec9 来源:简书,已获授权转载 本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(44)主要 ...

  10. 影像组学视频学习笔记(35)-基于2D超声影像的影像组学特征提取、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/f82d30289d68 来源:简书,已获转载授权 RadiomicsWorld.com "影像组学世界" ...

最新文章

  1. Linux命令行好玩的命令
  2. R语言ggplot2可视化:在选定数据点周围添加三角形(Add Triangles Around Select Data Points)
  3. php系统毕设答辩问题,计算机专业毕业论文答辩的一般程序及常见问题
  4. 昨日搬至办公室的书籍
  5. VMware中ubuntu虚拟机与windows的端口映射,共享一个IP地址
  6. [转]在SSIS中,使用“包配置”时的常见错误与解析
  7. 基于容器实现高并发网站
  8. mysql独立开发_nacos的mysql独立部署
  9. 服务器CPU X86 ARM PowerPC RISC介绍
  10. 解决ubuntu下不能mount windows 盘的问题
  11. tomcat上的javaweb项目如何将ip地址更换为域名_Java Web 路线规划
  12. 蓝桥杯2018年第九届C/C++省赛B组第三题-乘积尾零
  13. [跪了]Servlet 工作原理解析
  14. c++链接错误debug
  15. 网页360浏览器极速模式能打开,兼容模式打不开
  16. python导入包如果找不到
  17. Unity3d开发wp8问题汇总
  18. Python制作微信小助手
  19. 双光子荧光成像_为什么双光子成像如此重要?
  20. SpringBoot集成Minio搭建自己的分布式文件服务器(Minio集成篇)

热门文章

  1. android布局文件放在哪,Android开发之布局文件layout目录分包处理
  2. H5 打开微信小程序 公众号
  3. 学大伟业:学习物理竞赛的学生如何快速掌握所需要的高数知识?
  4. java excel转pdf linux_docker安装libreoffice并实现把Excel转为pdf
  5. confluent(Confluent Cloud)
  6. PS剪切蒙版怎么用?
  7. 九型人格:四、The TRAGIC ROMANTIC 悲情浪漫者 - 我若不是独特的,就没有人会爱我
  8. 将excel中的列转置成行
  9. struts 标签logic:iterate用法详解
  10. 震旦打印机扫描件到电脑设置流程