【哈佛大学:计算生物学 生物信息学】学习记录(二)
笔记主要内容:1~3代测序技术,fastq文件 & FASTQC
(1)测序技术
1、一代测序技术:Sanger Sequencing
测序条件:需要有足够的量的单链DNA,即相同序列需要达到多少数量才能进行测序。测序过程:以一条链作为模板,DNA聚合酶将环境中的材料(dNTP & ddNTP),进行结合,即合成另一条链(ddNTP结合之后,DNA合成反应终止)。下图所示,SEQUENCE (END)代表对应DNA序列的最后一个碱基是什么。
参考阅读资料:https://zhuanlan.zhihu.com/p/94183808
2、二代测序技术:Illumina Sequencing Cluster Generation
产业巨头:Illumina(e.g. NovaSeq 6000)
测序过程:对DNA序列加上接头序列 & 引物,经桥式PCR,不同的DNA序列形成不同的cluster。在反应环境中加入ATCG(荧光),摄像机对不同的光信号进行捕捉,记录对应的碱基信息,随后洗去目前碱基的荧光组分,进行下一步的DNA链合成反应。
【需要注意的技术】桥式PCR
参考视频:https://www.youtube.com/watch?v=fCd6B5HRaZ8
3、三代测序技术:Single Molecule Sequencing
技术代表:PacBio & Nanopore(两者技术不同)
与NGS对比,其不需要对序列进行扩增。同时,三代测序技术的测序片段长度也远远长于二代测序技术。
参考视频:
- http://www.youtube.com/watch?v=v8p4ph2MAvl
- https://www.youtube.com/watch?v=E9-Rm5AoZGw
(2)Fastq & FASTQC
老生常谈了,生物信息学入门必备知识:fastq & 用于检查测序文件质量的fastqc
1、FastQ文件格式
- Sequence ID
- Sequence
- Quality ID
- Quality score
图示:
质量值表示方式:Phred quality(一般为Phred 33),其数学含义代表某一个碱基测错的概率,计算公式为−10log10Pr-10log_{10}Pr−10log10Pr
质量值从低到高:
关于fastq文件,需要注意的是:
- 开头几个bp,测定结果是不稳定的,因为该测序阶段机器正在预热。
- 最后的几个bp,可能也会出现问题(测序环境问题)
2、为什么要进行质量控制?
- 检查公司返回的测序结果,如果不行当然要求重测了~
- 为了后续分析的准确性
3、FASTQC结果文件解读
这边当然得推荐一下,生信菜鸟团的FASTQC笔记:http://www.bio-info-trainee.com/95.html
Per Base Sequence Quality
虽然测序片段是250bp,但是经FASTQC查看过后,最终想保留下来用于后续分析的reads长度可能就缩减到了150~200bp。
下图类似一个箱线图,用于表示测序片段某一个位置的测序质量范围。
Per Sequence Quality Distribution
碱基对应质量值的分布(主要集中在什么质量区间,比如Q20~Q30)
Nucleotide Content Per Position
对应的就是100bp的序列在每一个位置上的碱基占比(A,T,C,G)。如果是在全基因组水平进行测序,每一种类型的碱基其占比应在25%左右,若非上述情况(比如链特异性测序,则碱基占比会改变)
下图“Good quality”的情况,可以选择将每一条序列的前几个bp给trim掉。
Per Sequence GC Content
此部分就是FASTQC将实际的GC content与期望的GC content进行对比,如果像下图右边一样,就代表测序可能出现了一些问题(e.g. 样品被污染)
参考阅读资料:https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/5%20Per%20Sequence%20GC%20Content.html
【哈佛大学:计算生物学 生物信息学】学习记录(二)相关推荐
- MySQL学习记录 (二) ----- SQL数据查询语句(DQL)
相关文章: <MySQL学习记录 (一) ----- 有关数据库的基本概念和MySQL常用命令> <MySQL学习记录 (二) ----- SQL数据查询语句(DQL)> &l ...
- Android动画学习记录二(属性动画、估值器和插值器)
Android动画学习记录二(属性动画.估值期和插值器) Android动画学习记录二(属性动画.估值期和插值器) Android动画学习记录二(属性动画.估值期和插值器) 一.补间动画缺陷 二.属性 ...
- 大数据之spark学习记录二: Spark的安装与上手
大数据之spark学习记录二: Spark的安装与上手 文章目录 大数据之spark学习记录二: Spark的安装与上手 Spark安装 本地模式 Standalone 模式 基本配置 步骤1: 复制 ...
- 计算鬼成像学习笔记二:二阶关联函数探究
计算鬼成像学习笔记二:二阶关联函数探究 1 一阶关联函数 2 二阶关联函数 3 二阶关联如何重构物体 4 差分鬼成像关联公式 5 归一化鬼成像关联公式 1 一阶关联函数 一阶关联函数是光场的电场强度之 ...
- HTML学习记录二:html标签(五):超链接标签
HTML学习记录二:html标签(五):超链接标签 一.超链接标签写法 二.超链接标签的属性 三.超链接的锚点用法 四.链接分类 一.超链接标签写法 在 HTML 标签中, 标签用于定义超链接,作用是 ...
- Openzeppelin学习记录二:utils模块(SafeMath.sol+SafeCast.sol)
Openzeppelin学习记录一:access模块(AccessControl.sol+Ownable.sol) Openzeppelin学习记录 2.Utils 2.1 Math 2.2 Safe ...
- [大数据技术与应用省赛学习记录二]——模块一(HADOOP完全分布式集群搭建)
**在操作前,先梳理一下HADOOP完全分布式需要做些什么,不然像无头的苍蝇一样,永远不知道做什么.因为我本人比赛是一台服务器Centos 7,与三台客户端Ubuntu 18.04,所以以物理机的角度 ...
- UE4 学习记录二 给角色添加骨架,皮肤,及运动动画
这只是用来记录我学习UE4过程的,可能帮不到你,先说声抱歉.为了防止误导他人,请勿转载,请勿转载,请勿转载. 本文的主题是给角色添加骨架.皮肤.运动动动画.总章目录(https://blog.csdn ...
- 【哈佛大学:计算生物学 生物信息学】学习记录(五)
为什么没有(四)? (四)主要说的就是SAM格式,网上一搜就有,就没必要了 (五)就草草地记录了Chapter 4.1: RNA-Seq Applications - Chapter 5.2 Diff ...
最新文章
- Lambda 表达式(=):网络摘抄,自学用,侵删。
- HDU-1051 Wooden Sticks
- linux 校园网开启wifi共享,Linux/Ubuntu 16.04 使用校园网客户端Dr.com DrClient 有线连网,同时开启WiFi热点...
- java list数组排序_浅谈对象数组或list排序及Collections排序原理
- mysql 不要统计null_浅谈为什么Mysql数据库尽量避免NULL
- python 结构体数组_python实现结构体数组(初始化并赋值)
- 工信部召开行政指导会 要求腾讯阿里9月17日前解除屏蔽网址链接
- 蔚来汽车5月份交付6711辆电动汽车 同比增长95.3%
- DevChartControl的颜色配置
- css中元素居中和文本居中
- 倍福EtherCAT EK1100耦合器技术参数
- R语言中的Factor到底是什么?
- SAP-ABAP-如何查找系统中已经存在的增强(包括1代2代3代BTE表字段增强等)和标准的增强点
- MySql 表空间查询
- 源码解析2-GUI-绘制引擎(QPainter源码分析 )
- 渗透测试漏洞平台DVWA-参考答案
- 大学生生涯职业规划计算机专业,大学生职业生涯规划书计算机专业范文
- 京东 API ,按图搜索京东商品(拍立淘)
- 信息学奥赛一本通C++语言——1058:求一元二次方程
- win ce系统如何知道u盘正版授权_从零开始的电脑系统重装
热门文章
- android开发自定义键盘,如何制作Android自定义键盘?
- 简单介绍下linux下的中断(interrupt)
- 网格员计算机考试基础知识,网格员考题_请问下网格员考试的内容题目是什么要复习什么_淘题吧...
- CSS的浮动以及清楚浮动的方法
- Jmeter dubbo插件测试dubbo接口
- git常用命令及常见问题
- 【React学习】React中ref的用法
- 已解决(Python语法报错)SyntaxError: invalid syntax
- Windows下python安装PyCrypto加密模块以及使用
- php使用vs,使用vs code写php及调试