文章目录

  • 前言
  • 一、DNA测序技术
  • 二、序列分析
    • 1.DNA序列的预处理
    • 2.序列拼接
    • 3.短序列映射和变异检测
  • 总结

前言

个人对《R语言与Bioconductor 生物信息学应用》作的一些摘要。方便自己日后查阅。


一、DNA测序技术

DNA测序技术(DNA sequencing),简单来说就是确定四种核苷酸残基(A、T、C和G)的排列顺序。第一代测序技术,也称Sanger测序法;第二代测序技术,也称深度测序或高通量测序;第三代测序的核心概念是单分子。

二、序列分析

测序分析是生物信息学最基本的工作。当前生物实验获得的最主要数据依然还是DNA、RNA和蛋白质序列,他们构成了生物信息学的出发点和最主要的内容。特别是当前高通量测序的迅猛发展使序列分析的需求呈海量倍增,对序列分析提出了更多新的要求,同时也改变了序列分析的内容和重点。从高通量数据处理的需求出发,当前的序列分析主要集中在序列预处理、序列拼接、短序列映射、变异检测、序列比对、相似性搜索、分子进化分析和比较基因组学等方面。

1.DNA序列的预处理

测序得到的DNA序列除了包括目的基因的短片段之外,还常常包括引物、接头或载体等其他片段,必须通过计算机程序去除这些片段,这个过程叫做去污染。除此之外,还要去除测序质量较低的部分,这样得到高质量的干净(Clean)数据,才能用于进一步的分析。Bioconductor的ShortRead软件包提供了有针对性的函数,用于去除第二代测序数据中的污染和低质量片段。

2.序列拼接

第二代测序会得到大量随机的短DNA片段,因此如何正确拼接这些片段以得到目的基因组或转录组是一个具有挑战性的问题。由于序列拼接算法比较复杂,且耗费的资源非常可观,因此普遍需要用更具有效率的编程语言(如C++/C)编写,这里不做过多介绍。拼接得到的序列叫做一致性序列(Consensus sequences),它只是代表了一条参考序列,在这条序列的每个位点的核苷酸只是出现次数较多的那种,出现次数少的核苷酸不被反映出来。

3.短序列映射和变异检测

对已有基因组或转录组作为参考序列的重测序项目中,需要将测序得到的短序列(一般不超过500个bp)映射到参考序列,这个过程也叫对齐(Alignment)。这也是一个耗费资源的工作,因此不多介绍。不过短序列映射的后续处理工作和其他相应的数据分工作会大量使用R编程。特别是,根据这些映射的结果,在全基因组水平上扫描并检测发现大量的基因序列变异,并结合表型分析,进而指导动植物育种或人类疾病等研究。这些变异包括:单核苷酸多态性(single nucleotide polymorphism,SNP)、拷贝数变异(Copy Number Variation,CNV)、插入(Insertion)和缺失(Deletion)等变异类型。


总结

下篇见Day3

生物信息学基础知识Day2相关推荐

  1. 【学习笔记】生物信息学基础知识+序列比对初步了解(一)

    文章目录 DNA和RNA的组成 基 因 蛋白质 中心法则 DNA的复制 DNA到mRNA转录 蛋白质的剪接 蛋白质的折叠 突变与多态性 组 学 转录组 蛋白质组 代谢组 组学数据简介 表观遗传 复杂生 ...

  2. 生物信息学基础知识Day1

    文章目录 前言 一.生物大分子 1.DNA 2.RNA 3.蛋白质 二.基因组.转录组和蛋白质组 1.基因 2.基因组 3.转录组 4.蛋白质组 总结 前言 个人学习<R语言与Bioconduc ...

  3. GEO数据挖掘(3)-芯片基础知识

    高通量.全基因组的DNA芯片已经成为生物领域十分有用的工具.然而,芯片实验产生的数据量日益增长,由于不同的分析方法,会得出不同结论,因而分析起着关键作用. 基因芯片分析目的 基因芯片分析就是为了通过生 ...

  4. DL:深度学习(神经网络)的简介、基础知识(神经元/感知机、训练策略、预测原理)、算法分类、经典案例应用之详细攻略

    DL:深度学习(神经网络)的简介.基础知识(神经元/感知机.训练策略.预测原理).算法分类.经典案例应用之详细攻略 目录 深度学习(神经网络)的简介 1.深度学习浪潮兴起的三大因素 深度学习(神经网络 ...

  5. 想要认认真真的夯实基础知识了

    今天看了一篇特别有感触的文章.作者(算是前辈了)从零开始自学生物信息学.博客上积累了很多的内容.让我很是钦佩. 最近也在读另外一个前辈分享的十年来的从业体验,其中就提到一条是"认真对待自己做 ...

  6. 图像识别的原理和应用:从基础知识到实际案例

    图像识别的原理和应用:从基础知识到实际案例 图像识别是一种利用计算机对图像进行处理.分析和理解,以识别各种不同模式的目标和对象的技术.图像识别是人工智能和计算机视觉的一个重要分支,它在各个领域都有广泛 ...

  7. 数据分析基础知识复习

    数分析基础知识 从广义的角度,数据分析分为三个方面体包括** '数据分析','数据挖掘','模型算法'**. 数据分析:偏重于数理统计,用统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论 ...

  8. 生信初学者必备的基础知识

    如果你是一个生信初学者,又或者你是一个学临床的,为了发文章开始学生信,学了点数据挖掘,GEO,TCGA什么的,但是对很多专有名词不理解,对很多流程或者步骤云里雾里,可以看看这个教程:生物信息学最佳实践 ...

  9. 03 day1--javascript笔记pink老师-基础知识 看这一篇就够了!

    内容 链接 day1 基础知识大总结(JS使用.变量.数据运算.数组.函数.作用域) 链接 day2 对象 链接 day3 进阶API之DOM技术 链接 day4 进阶API之BOM技术 链接 day ...

最新文章

  1. 周志华教授:AI领域如何做优秀研究并写高水平论文?
  2. CMake编译工具与项目构建
  3. IIS7 上配置运行 Ruby CGI环境
  4. Python 列表 insert() 方法
  5. c语言,字符串原地翻转
  6. ps怎么把一个颜色替换成另一个颜色_常用的60个PS技巧,助你成为PS大神!
  7. linux通过SSH连接的SSH加密原理(笔记自用)
  8. 如何修改Fiori Launchpad里Tile计数调用的时间间隔
  9. 前端---JavaScript基础3
  10. Win7旗舰版禁止修改文件属性的设置方法
  11. lisp语言100以内勾股数_三个视频搞定:函数的最值、对勾函数、分式函数性质与图像、分段函数最值...
  12. Flutter实战一Flutter聊天应用(十四)
  13. 编译原理第三版 作业一
  14. CAD手机精准看图隐私政策
  15. 【燕秀工具箱】模具辅助下载安装使用手册
  16. CentOS系统查看本机IP地址
  17. 利用高德地图周边搜索api获取不同类型的餐厅推荐
  18. 服务器虚拟环境使用指南
  19. caffe 报错 Aborted(core dumped
  20. VBScript脚本运用(脚本程序与宿主程序的交互)

热门文章

  1. 【每日AI】什么是矢量字库?
  2. bcb 操作 Excel
  3. Cmd命令行实验4-ARP
  4. 小布老师-PL_SQL(第六讲)
  5. yolov7_obb在WIN10下训练自己的数据集
  6. CPU和内存之间关系的演变
  7. 小程序 | 认识CMS、创建云开发环境、创建并进入CMS内容管理系统
  8. Twitter网页版推出通用搜索功能 复制链接
  9. Flowable No outgoing sequence flow of the exclusive gateway ‘xxx‘ could be selected for continuing
  10. web前端常见面试题总结