关于泊松分布在测序原理中的解释
首先泊松分布描述的是:一个时间段或一个区间内某事件发生次数的概率。
公式是:
f(x)=uxe−ux!f(x)=\frac{u^xe^{-u}}{x!} f(x)=x!uxe−u
其中x指的是事件发生的次数,u是事件在一个区间发生次数的期望值或均值,f(x)代表事件发生x次的概率。
测序原理有利用到泊松分布,那么测序中,“时间”或者“区间” 指的什么?“事件” 又是指的什么?
按我理解:
一句话描述:
假设一个基因测了100次,每次拿到的序列称为区间,这个基因某个位点在这100个区间中出现的次数服从泊松分布
或
假设一个序列测了N次,得到N个区间,某个位点或任一位点在这N个区间发生(出现)的次数服从泊松分布
具体解释:
假设某个基因的长度是500(bp),如果经过测序拿到的序列长度是1000,那么我们有一个问题:
这1000个碱基覆盖了多少目标基因?
首先,我们需要找到泊松分布中的事件在这里指的什么?
假设这个基因中有一个位点叫a,事件其实就是:
任意序列区间中,a是否出现(发生)。
我们要求的问题就是:
在这1000的序列中,a出现至少1次的概率
这样,泊松公式需要的参数我们很容易就能拿到:
1.期望值
我们期望这1000个碱基中,a位点出现的次数,应该是2,因为最理想的情况是基因每个碱基都被测了2次
期望值u=1000/500=2
2.事件发生的次数
泊松公式需要指定具体的次数,我们要求至少1次发生,那么可以先求发生0次的概率
次数x=0
那么最终结果就是:
1-f(x)
也就是,a位点在这1000个碱基里至少出现1次的概率是1-f(x)
因为a位点可以是基因任一一个位点,所以结果就可以描述成:
任一位点在这1000个碱基里至少出现1次的概率是多少
可以解释为
覆盖度(严格来说,应该是1-f(x)的500次方)
根据公式,我们知道:
当x=0时
f(x)=e−uf(x)=e^{-u} f(x)=e−u
即任一位点至少出现1次的概率为:
P(X≥1)=1−f(x)=1−e−uP(X\geq1)=1-f(x)=1-e^{-u} P(X≥1)=1−f(x)=1−e−u
所以,u越大,P就越大,换算成测序中的说法就是,对于同一个目标序列,深度越大,结果越准确。
关于泊松分布在测序原理中的解释相关推荐
- 样本、文库、重复、lane、run - 二代测序原理及名词解释
参考: 独占鳌头的Illumina仪器(二代测序篇) HiSeq2000测序原理.流程与仪器 NGS文库制备的方法比较[心得点评] 各种测序文库构建方式 样本:就是待测的DNA.RNA或蛋白序列,样本 ...
- 三代测序原理与数据文件简介(SMRT+Nanopore)
三代测序原理与数据文件简介(SMRT+Nanopore) 一生雾梦 2019-12-03 20:48:42 1578 收藏 2 分类专栏: 前沿文献分析 文章标签: 三代测序(SMS) SMRT ...
- 第三代测序单分子荧光测序之Pacbio 测序原理
测序原理:边合成边测序 测序特点: 1. 四色荧光基团 分别将四色荧光基团标记在脱氧核苷酸的磷酸基团的末端.当碱基配对完成之后,随着磷酸基团的掉落而掉落,并且不会影响后续的测序过程. 2.Zero M ...
- 推荐我们在B站免费的生信入门基础课程|测序原理,GO/GSEA/WGCNA
点击**阅读原文**直达! 经典升级 | 第 17 期高级转录组分析和R数据可视化火热报名中!!! Nature重磅综述 |关于RNA-seq,你想知道的都在这 RNA-seq最强综述名词解释& ...
- 推荐我们在B站免费的转录组课程|测序原理,GO/GSEA/WGCNA
点击**阅读原文**直达! 高级转录组调控分析和R语言数据可视化第十三期 (线上线下开课) Nature重磅综述 |关于RNA-seq,你想知道的都在这 RNA-seq最强综述名词解释&思维导 ...
- Pacbio测序原理以及SMRT bell文库构建流程简述
2018年发的老文章了,文章不错,所以决定再捞一下.文中有3段视频,如需观看请大家移步"基因Share"观看. Pacbio测序原理及SMRT bell文库构建流程简述(二) ...
- 自动驾驶中可解释AI综述和未来研究方向
作者丨黄浴@知乎 来源丨https://zhuanlan.zhihu.com/p/453146210 编辑丨3D视觉工坊 arXiv上2021年12月21日上传的自动驾驶可解释AI的综述:" ...
- Cell二连发 | 广东CDC/耶鲁大学利用纳米孔测序揭示中/美新冠病毒基因组流行病学传播规律...
利用纳米孔测序技术实时测定病毒全基因组信息(Nanopore Real-time Sequencing),能够动态地分析病毒分子进化来研究病毒的变异及传播特征,这些信息对疫情发展不同阶段制定有效的防控 ...
- 和rna用什么鉴定_RNA-seq:测序原理之文库构建
在讲测序原理之前,需要有一些最基本的生物知识了解 1)虽然DNA链很长,但是RNA可能比较短,因为有些基因转录了,有些基因没有转录 2)一个DNA上有许多基因片段,每个基因片段的DNA链能转录出一种m ...
- MapReduce的工作原理,详细解释WordCount程序
本篇文章主要说两部分:简单介绍MapReduce的工作原理:详细解释WordCount程序. MapReduce的工作原理 在<Hadoop in action>一书中,对MapReduc ...
最新文章
- 从docker 中抓取jvm heap 信息, 并且分析
- TensorFlow2简单入门-单词嵌入向量
- Python 输入与输出
- LabVIEW2018安装教程
- 程序员怎么长久保持新鲜感?
- JavaScript ES 5 语法 重构 new
- 关系型数据库全表扫描分片详解
- Android之TypedArray 为什么需要调用recycle()
- 1 微信公众号开发 服务器配置 有什么用
- Mycat安全权限配置privileges---MyCat分布式数据库集群架构工作笔记0032
- 【Vue指令】—v-if、v-show二者用法及区别
- VirtualBox基础使用
- 多重背包(二进制优化)
- 推荐一个国外的关于奥运报道的网站.
- 为什么败者树的访问外存次数要比胜者树少_为什么说蒙地卡罗搜索树MCTS是AlphaZero的核心?[AlphaZero理论篇之三]...
- springboot毕设项目养老院信息管理系统kak2w(java+VUE+Mybatis+Maven+Mysql)
- 新彩虹世界密码系统是多少_希望最近的世界密码日是我们需要的最后一个
- happens-before的法则
- C++入门教程(四十二):函数参数使用引用
- ArcGIS基于C#.NET的二次开发
热门文章
- Java程序输出26个大写字母的ASCII对照表
- flv是什么视频格式?怎么把flv转换成mp4?
- uniapp实现IM即时通讯仿微信聊天功能
- Office365强制Microsoft Authenticator验证登录如何关闭
- cxf配置http:conduit
- 思科痛失瑞士电信2.5亿法郎合同
- 用python生成个性二维码生成器_Python 生成个性二维码
- 基于PyQT5制作一个二维码生成器
- ultravnc download windows 7,ultravnc download windows 7软件的4大优势
- 1099 PIPI的油田(使用查并集)