第二代基因组测序
深度测序产生的FASTQ 数据
Q值会通过转化表编码成ASCI码保存在FASTQ数据中

通过质量信息,常将质量分数小于20,即错误概率大于0.01 的碱基认为是不可靠的,如果这样的剪辑数目超过20%将丢弃该reads。

Pair end Reads(双末端测序)

RNA-seq 快速鉴定转录组,进而确定存在的可变剪切体。
CHIP-seq 既可用于来检测转录因子的结合位点也可以探索特定的染色质修饰区域 。

深度测序中的分析方法
reads mapping (读长比对)与序列比对的差异:

之前的序列比对,认为两个序列相差不大,但是
1.在reads mapping过程中,基因组的长度长达上百兆B,而测序长度不超过100bp
2.数据量,在深度测序的过程中,产生的数据多达几十个G;
3.深度测序中产生的reads 的质量层次不齐,错误率高,


在reads mapping 过程中,reads相当于一个嵌入基因组中的,因此可以考虑到这个reads mapping 到基因组上的过程是局部和整体的一个比对。
基因组的局部比对,reads 的全局比对。

因此可以考虑到对隐含马尔可夫模型进行修正,构建模型

但是这个过程比对的数据量大,耗时长,因此采用BLAST 算法中的seeding and extending 的过程在进行匹配,降低时间的消耗 。

利用BLAST 的思路,采用seeding and extending 的算法,需要先将基因组构建索引,然后将reads 进行快速的定位,然后再通过extending 的方法进行比对。

构建索引的目的,就是将长的参考基因组的数据进行分段小化,降低搜索空间,降低搜索的时间,便于后续的快速比对和查找。

哈希索引方法是常见的索引方法,哈希索引长再mysql 数据库里可进行哈索引。关于哈希索引相关的信息。
关于哈希索引https://blog.csdn.net/olizxq/article/details/82313489
基因组比对中的哈希索引

在基因组比对过程中的哈希索引

通过将基因组划分为一定的小区块,然后进行定区进行匹配,在这个过程中允许一定错误的比对,早期的常见的reads mapping比对方法ELAND 和MAQ 以及SOAP1 等算法,都是采用的哈希索引和抽屉原理进行早期的比对,但是这个方法,允许更多的错配,就需要将序列分解成更多的小区块,将会导致性能的下降。

从09年后数据压缩算法中,常用的前缀树和后缀树开始应用于数据mapping ,前缀树和后缀树也是哈希的一种 变形,主要是将海量的始数据进行压缩,并且便于后续的查找和索引 。根节点都为空。

目前常见的比对的方法Bowtie 以及BWA 和SOAP3等方法都是通过后缀树的思路进行比对的。

在构建索引后,可通过seeding 然后在进行extending的过程进行延伸比对,通过动态规划的方法确定最终的比对结果。


新一代测序的错配概率很高,那么需要考虑其是由测序的假象引起的,那么由此引入了比对质量这一概念


错误mapping概率 E 同时考虑了序列相似程度和测序质量,因此常使用mapping quality 而非序列分数来筛选reads mapping的位置。

将持续得到的reads 正确匹配到基因组上后,可以进行后续的遗传变异的分析。

常见的遗传变异 包括单核苷酸变异以及结构的变异

SNP calling

纯和变异位点
杂合变异位点

那么可以通过在本次的比对的过程中的出现的等位基因的概率和原始的表型,来计算对于测序的结果得到的表型概率如AA、Aa、以及aa可能得到的概率,在基于此的结果上,我们可以通过大人群样本中这一等位基因出现的概率背景知识,通过贝叶斯公式通过先验概率来计算后验概率。

GATK 软件的流程

关于回帖和变异的鉴定那么两个常用的分析方法

北京大学生物信息学学习(7)NGS 分析相关推荐

  1. 北京大学生物信息学学习(6)隐含马尔可夫模型

    北京大学生物信息学学习(6)隐含马尔可夫模型 马尔可夫链(时间和状态都离散的状态组合) https://www.bilibili.com/video/BV13t411G7oh?p=14 隐含马尔可夫模 ...

  2. 北京大学生物信息学学习(3动态规划进行2序列比对的原理 )

    链接 https://www.bilibili.com/video/BV1by4y1k7rc?p=6 北京大学生物信息学公开课之动态规划进行2序列比对 掌握主流的生物信息学的原理,然后让生物信息学为你 ...

  3. 生信小白学习日记Day2-2——NGS基础 NGS分析

    2019年5月26日下午,无意中看到hanli0902的关于NGS分析的博文https://blog.csdn.net/hanli1992/article/details/82790386有很多需要学 ...

  4. 生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)

    2019年5月27日,天气舒适,忙碌一天之后开始今天的生信学习.今天就昨天Day2-2的一些标记加以查询说明,仅供参考. NGS基础 NGS分析注解 1. 质量分析软件 昨天提到,拿到数据后可以通过一 ...

  5. 生信小白学习日记Day4Day5——NGS基础 NGS分析注释(BWA软件)

    2019年5月30日,晚上,心情变好,好几天没更新了,看到男朋友在学一款软件,我也近朱者赤,来继续注释Day2-2中NGS分析流程中的一个重要软件--BWA NGS基础 NGS分析注释 BWA 对应于 ...

  6. 北京大学生物信息学课程(5)

    北京大学生物信息学课程(5) 马尔可夫模型的学习 马尔可夫模型 未来的状态至于当前的状态和状态的转移概率有关,而与之前和过往的状态无关. 空位罚分 引入了Gap open 和Gap extending ...

  7. 北京大学生物信息学 (4)序列数据库

    北京大学生物信息学 (4)序列数据库 https://www.bilibili.com/video/BV13t411G7oh?p=9&spm_id_from=pageDriver 搜库算法 B ...

  8. 一门课程学习转录组调控分析和R可视化第十四期 (线上线下开课)

    福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程.转录组线上直播课.报名参加线上直播课的老师可在365天内选择参加同课程的一次线下 ...

  9. 北京大学生物信息学(9)第二代基因组测序技术

    北京大学生物信息学(9)第二代基因组测序技术 如何预测一个遗传变异的功能及其对表型的变化 https://www.bilibili.com/video/BV13t411G7oh?p=26 常见的二代测 ...

最新文章

  1. Linux之samba服务器的搭建及详解
  2. linux-Centos7安装python3并与python2共存
  3. Telnet 1433端口
  4. scrapy通过item类直接创建数据库中的数据表
  5. Django:ORM基本操作-CRUD,管理器对象objects,----->删除:删除单个数据,删除批量数据
  6. 微信文件夹下不可言说的秘密自动生成小视频文件
  7. VScode开发51单片机程序
  8. web前端面试过程流程和建议
  9. 百度网盘上传文件时提示超过4G限制如何解决?
  10. 王老吉为何败给加多宝?
  11. Android蓝牙自动配对Demo,亲测好使!!!
  12. python量化羊驼法则
  13. 阿里云oss对象存储的使用
  14. web项目获取webpp文件下的图片
  15. Ubuntu多硬盘luks全盘加密自动解锁(硬件变更后失效)的方法
  16. mysql字段是问号_Mysql数据库中文字段显示问号怎么解决?
  17. 音频频谱图(自定义View——进阶篇2)
  18. 海贼王热血航线正在连接服务器,航海王热血航线维护中是怎么回事 无法登录解决方法_航海王热血航线...
  19. 如何挖掘Nginx日志中隐藏的金矿?
  20. 分享UCI两个可用于预测的数据集Diabetes和Heart Disease

热门文章

  1. 一步一步重构柔性数组和智能指针
  2. mysql 统计本月的_MySql查询当天、本周、本月、本季度、本年的数据
  3. vue input只能输入正整数_前端开发:Vue中获取input输入框值的方法
  4. 在手机里输入八卦及64卦符号(老年教程)
  5. FFmpeg wav转pcm(十一)
  6. Android/Linux编译开关使用
  7. ffmpeg (四):ffmpeg, ffplay, ffprobe用法
  8. Clojure 学习入门(15)- 条件判断
  9. 让APP不被android系统杀掉
  10. 学习OpenGL-ES: 2 - EGL解析