n维空间的欧氏距离公式_什么是“欧几里得距离”(ED)?| 群体遗传专题
在BSA(bulk segregant analysis)的结题报告中,我们经常看到欧几里得距离(Euclidean distance,ED,又称欧氏距离)算法的结果。欧几里得这位大数学家的名字我们都不算陌生,但是欧几里得距离是什么,它又是怎样应用到遗传学研究的领域当中来的呢?
要理解欧几里得距离,我们先要了解欧几里得空间。我们通常所在的空间是三维空间,三维空间任意的点可以被一个三维的坐标定义。而将三维拓展为更高的n维,即得到了n维欧几里得空间。而在n维空间中两个点之间的距离,我们就称之为欧几里得距离。
在具体的应用中,如果一组数据拥有n个相互独立的变量,我们就可以将其置于n维的欧几里得空间中,并应用欧几里得距离来量化两组数据之间的差异。我们都知道,在二维平面上,两点之间的距离计算如下:
那么应用到n维空间中,欧几里得距离的计算也同理,是坐标轴各方向差值的平方和开根号,计算如下:
应用到BSA上,欧式距离可以计算同一个位点上,两个混池之间的遗传距离。根据BSA的原理(BSA专题(一)——BSA性状定位简介),两个极端性状子代混池只在控制性状的QTL及其连锁位点出现差异,所以通过各个位点欧几里得距离的计算,我们可以判断哪些位点更可能是控制对应性状的QTL。计算公式如下:
可以看出,这里将各个位点的SNP抽象成了四维欧氏空间中的一个点,并且对两点之间的距离进行了计算,得到了两点之间的欧氏距离。欧几里得距离最早由Hill等应用于高通量测序的BSA分析中(Hill et al., 2013)。迄今为止,已经有相当多的BSA研究应用欧几里得距离算法作为定位区间挖掘的算法。
实际应用中,我们在BSA的两组混池之间可能会得到数十万甚至上百万个SNP,有的SNP可能实际与性状无关,但因为抽样偏差,导致计算得到的ED值很高,如何能将这些统计异常值排除掉,只留下真正的QTL呢?这里就要用到BSA常用的滑窗计算法。在一个窗口内,对所有位点的ED值进行拟合,这样因为抽样偏差造成的个别点高ED值的峰就会被抹去,但是真正的QTL及其周边相连锁的位点计算出的高ED值会在滑窗拟合后得到保留。
上图是某物种BSA的ED拟合图,图中的每一个散点都是一个SNP位点的ED值,而黑线是滑窗拟合后的ED值。我们可以清晰地看到,每条染色体上都有ED值较高的点,但是经过滑窗拟合后,只有染色体5B上保留了一个很强的峰值信号。这个信号峰的位置即直观地指示了QTL所在的位置。
当然你可能也注意到,对于一个双等位基因的位点(即在群体中,这个位点有且只有2个等位基因,或者说2种碱基类型)来说,ED的取值上限是根号2,但是图中的ED值上限却是2,这是为什么呢?因为在BSA定位区间计算过程中,为了降噪去除掉那些干扰信号,会对ED值进行乘方处理。上图即是使用了ED^2的值进行运算和展示,根据实际降噪结果,会在2-6次方之间浮动。
上述就是欧几里得距离应用于BSA分析的基本原理了,不过在ED之外,还有SNP-index等其他方法,能从不同的角度对BSA数据进行分析,根据实验设计灵活应用,才能够拨开云雾见天日,最终挖掘出我们与性状相关的QTL区间。当然,欧几里得距离作为一种常用的数学计算指标,在除BSA外的其他领域也有相当广泛的应用,但是只要了解其基础原理,其他方面的应用也都是万变不离其宗,可以一以贯之地进行理解。
广告时间:
想要了解更多关于BSA的知识,欢迎购买我们的BSA百科全书,点击下方的阅读原文即可购买。
参考文献:Hill J T, Demarest B L, Bisgrove B W, et al. MMAPPR: mutation mapping analysis pipeline for pooled RNA-seq. Genome research, 2013, 23(4): 687-697.相关阅读
我的候选基因里没有SNP和InDel变异,是定位错了吗?| 群体遗传专题
左手遗传图谱右手肠道菌群,嘿,ISME文章!| 群体专题
楸树高密度遗传图谱助力叶片和生长性状QTL定位 | 群体遗传
F1群体遗传图谱定位葡萄果实硬基因 | 群体遗传
联川群体遗传高手公开课问答锦集 | 群体遗传
叶不障目可见泰山|GBS-GWAS,QTLs定位白杨叶形决定基因 | 群体遗传
大力水手讨厌霜霉病 | GBS-BSA定位抗性基因座 | 群体遗传
购书请点击下方
阅读原文
n维空间的欧氏距离公式_什么是“欧几里得距离”(ED)?| 群体遗传专题相关推荐
- n维空间的欧氏距离公式_欧氏距离(Euclidean Distance)
欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式. (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: ![image.png](http://upload-i ...
- n维空间的欧氏距离公式_距离的总结(欧氏距离)
首先要感谢各种距离 - 我只想做一个努力的人 - 博客频道 - CSDN.NET http://blog.csdn.net/shiwei408/article/details/7602324 在做分类 ...
- 欧几里得最短距离公式_欧几里得度量(欧氏距离)
欧几里得度量,或者说欧氏距离,Euclidean Distance,这个名字来自著名的古希腊数学家欧几里得. 欧几里得(公元前330年-公元前275年),古希腊数学家.他活跃于托勒密一世(公元前364 ...
- RBF神经网络——直接看公式,本质上就是非线性变换后的线性变化(RBF神经网络的思想是将低维空间非线性不可分问题转换成高维空间线性可分问题)...
Deeplearning Algorithms tutorial 谷歌的人工智能位于全球前列,在图像识别.语音识别.无人驾驶等技术上都已经落地.而百度实质意义上扛起了国内的人工智能的大旗,覆盖无人驾驶 ...
- 欧几里得最短距离公式_推荐算法原理(二)欧几里得距离计算物品间相似度
在上篇文章中介绍了如何利用余弦定理计算两个物品间的相似度:KiKlaus:推荐算法原理(一)余弦定理计算物品间相似度zhuanlan.zhihu.com 这种计算方法虽然简单,但是在衡量空间两个向量 ...
- 3维空间目标跟踪的CV,CA,CT动力学模型
类似于二维平面上车辆转动的CV,CA,CT模型.3维空间的CV.CA.CT模型也存在.用于目标跟踪时,需要考虑的角速度.速度.加速度之间的耦合关系更为复杂,所以本博客列举了这些公式. 恒定速度模型(C ...
- 两个空间点直接距离投影公式_线积分与面积分(2):最初的公式
这篇将会从最开始的公式开始说起. 在高数的范围中,线积分被限制在二维和三维空间,面积分则被限制在三维空间中.于是后面的分析也被局限在三维空间,而不扩展到n维空间. 正文 首先应当将线积分和面积分分类, ...
- Lunx运维监控_shark巨菜_基础篇
Lunx运维监控_shark巨菜_基础篇 一.监控重要性 单单从"监控"两个字来谈,范围之广可以涵盖我们生活的方方面面,我们生活和工作中处处可见视频监控的摄像机:机房中的电压电流监 ...
- 与ln的指数转化公式_高考数学48条秒杀型公式与方法
点上方蓝字,关注"云学冠学习资讯"有助于提高成绩哦! 除了课本上的常规公式之外,掌握一些必备的秒杀型公式能够帮你在考试的时候节省大量的时间,师姐这次的分享就是48条秒杀公式,直接往 ...
- 狄利克雷分布公式_一文详解隐含狄利克雷分布(LDA)
一.简介 隐含狄利克雷分布(LatentDirichletAllocation,简称LDA)是由DavidM.Blei.AndrewY.Ng.MichaelI.Jordan在2003年提出的,是一种词 ...
最新文章
- 卧槽,面试官质疑我不会配置中心原理,看不起谁呢?
- 阿里P7面试官告诉你:3-5年以上的Android开发如何深入进阶?Android中高级开发必须掌握哪些?
- 写出程序删除链表中的所有接点
- flex与java实现增删改查
- .net core 整洁架构入门
- C++(STL):03---智能指针之shared_ptr
- php windows 64下载地址,VSCode Windows 64位 下载
- Android中MVC、MVP、MVVM具体解释
- 程序员操作系统推荐_程序员的这些问题,竟然在工作后才发现!
- 在Macbook M1上安装Parallels Desktop 17虚拟机和Originlab 2021
- 【转】浅论ViewState及其与Session的关系
- 文本编辑控件FreeTextBoxFCKeditor下载地址
- ffmpeg之H265解码
- 如何批量将 Xls 格式的 Excel 文档转为 Xlsx 格式
- 计算机画图如何把二寸照片修改为一寸,【2人回答】用画图工具怎么制作一寸、二寸照片?-3D溜溜网...
- HTML获奖作品,最新潮的24组获奖网页作品欣赏
- 计算机无法接入工作网络,局域网中电脑无法连接网络怎么处理
- 微软日语输入法用法说明
- 为什么需要Secondary Index
- 网络基础--搭建一个简单的网络