连锁不平衡的计算以及LDSC分析多基因遗传
连锁不平衡(linkage disequilibrium,LD)是指在某一个群体中,不同座位上两个基因同时遗传的频率明显高于预期的随机频率现象,连锁不平衡的程度通常用 r2 来衡量。
D是LD的基本单位,度量观察到的单倍型频率与平衡状态下期望频率的计算方法如下:
D=P(AB)-P(A)*P(B)
P(AB)表示实际观察到的AB频率,P(A)*P(B)表示AB频率的期望值。(如果发生连锁不平衡,实际观测到的AB频率肯定不等于AB频率的期望值)
如果D值显著偏离0,则说明存在LD。因为D的取值强烈地依赖于人为制定的等位基因频率,所以它不利于LD程度的比较。标准化的不平衡系数D'能够避免这种对
等位基因频率的依赖。D'的计算方法如下:
D'=D/Dmax
当D<0, Dmax=min{P(A)P(B),P(a)P(b)};
当D>0, Dmax=min{P(A)P(b),P(a)P(B)};
当D‘=1,表示连锁完全不平衡,没有重组;
当D‘=0,表示连锁完全平衡,随机组合;
除了D值之外,还有一个衡量连锁不平衡程度的标准,就是r2
值,计算公式如下
r2=D*D/(P(A)P(a)P(B)P(b))
当r2=1,表示连锁完全不平衡,没有重组
当r2=0,表示连锁完全平衡,随机组合
下面通过一个示例,看下实际分析中,P(A)和P(B)如何计算。
在一个群体中,观测到的单倍型频率分布如下
根据单倍型的频率分布,可以计算出如下的等位基因频率
单倍型A1B1
的D值计算如下
对于不同单倍型,其D值汇总如下
上面的例子,可以帮助我们理解D值计算的过程。在实际分析中,我们通常会拿到样本的基因分型文件,通过这个文件我们可以非常容易的计算出allel的频率,但是对于单倍型的频率是不能直接计算得到的,都是借助算法估算出单倍型的概率,然后进行计算。对于连锁不平衡的计算,有很多的软件可以用,最常用的有plink
和haploview
,当然也有很多的R包可以进行计算。
理论上来说任意两个基因之间都可能存在连锁不平衡,但是实际操作中,认为只有一定区间范围内的基因会存在连锁不平衡,距离大于区间的基因,两者出现连锁不平衡的概率非常小,所以就不去计算。对于连锁不平衡的结果,通常采用heatmap
热图的形式进行展示,haploview
给出的LD heatmap 示例如下
颜色从白色到红色,代表连锁程度从低到高,方框中的数值为r2,为了美观,这里将r2 乘以了100。除了heatmap 之外,还会有下面这种散点图
横坐标为基因之间的距离,纵坐标为衡量连锁不平衡的R2值。从图中可以看出连锁不平衡的规律,在一定距离内存在连锁不平衡程度较高,大于一定距离后,出现连锁不平衡的概率就大大降低了。这就是为什么在实际操作中只计算一定范围内的连锁不平衡的原因。
LDSC(连锁不平衡回归分析)方法校正GWAS分析中的多基因遗传效应
GWAS研究中,混杂因素偏倚(隐晦的亲缘关系和种群分层)和多基因效应是造成检验统计量膨胀的主要原因。
通过引入LDSC( Linkage Disequilibrium Score Regression)检测统计值与LD(r2)之间的回归关系,可以量化每个变量的贡献,回归分析的截距值也可以用来区分统计量膨胀的原因并对进行校正。
引入如下模型,变异 j 的预期的卡方检验统计量表示如下:
N:样本大小,M:SNP数量,h2/M:每个SNP的平均遗传率(遗传率的计算方法下一个笔记讲),a:混杂偏倚的效应值
由此,回归方程中的截距值-1就是混杂偏倚效应对卡方统计量膨胀贡献均值的估计值。
利用LDSC工具绘图,若得到左图(截距值近似于1),表示不存在混杂效应偏倚;若得到右图,表示可能存在混杂效应偏倚。
参考文献:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4495769/
这篇文献还没看完全看懂,等我来补QAQ
连锁不平衡的计算以及LDSC分析多基因遗传相关推荐
- 不会linux也没关系,点击鼠标即可完成的LDSC分析来了
欢迎关注"生信修炼手册"! LDSC分析基于已有的GWAS结果,即gwas summary数据,可以评估性状的遗传力,分析两个性状间的遗传相似度.相比GREML, 其运算速度快,更 ...
- MATLAB数学计算与工程分析范例教程,MATLAB数学计算与工程分析范例教程
基本信息 书名:MATLAB数学计算与工程分析范例教程 定价:28.00元 作者:石博强,赵金 编著 出版社:中国铁道出版社 出版日期:2005-05-01 ISBN:9787#113057596 字 ...
- 基于边缘计算平台的分析与研究
摘 要:边缘计算作为万物互联时代的关键技术,具有广泛的应用场景.文章首先分析了边缘计算平台在推广中面临的问题:随后从架构出发分析了典型边缘计算平台,并列举了边缘计算应用场景的需求参数,最后提出了一种边 ...
- 量子计算在秘密分析中的应用【会议】
量子计算在秘密分析中的应用 写在前面的话 会议记录 写在前面的话 <网络空间安全青年科学家长安论坛>,本篇博客为北京邮电大学高飞老师的报告内容. 会议记录
- 《系统分析与设计方法》 练习计算投资回收分析
练习计算投资回收分析 •一个系统投资¥300万,第一年的收益30万,维护费用100万:第二年的收益200万:维护费用100万:第三年的收益300万,维护费用100万:第四年的收益400万,维护费用10 ...
- 从深度学习计算过程来分析深度学习工作站\服务器的硬件配置
柯洁和AlphaGo的故事已经结束,输赢显得并不重要,这个天才少年曾落泪哽咽:它太完美我看不到希望.搭载谷歌无人驾驶技术的车辆已经完成200万英里的测试,如今它打算要载人了,无人驾驶真的已经不远.在苹 ...
- MATLAB数学计算与工程分析范例教程,MATLAB 2016数学计算与工程分析从入门到精通...
全书通过近400个实例讲解了利用MATLAB 2016进行数学计算和工程分析的方法和技巧,涵盖了MATLAB的五大功能:1)数值计算功能:2)符号计算功能:3)图形与数据可视化功能:4)可视化建模与仿 ...
- 【学习教程】建筑设计全过程碳排放计算与案例分析
"30/60双碳目标"已成为我国绿色发展的新国策,建筑业对碳排放量化分析和减排也越来越重视.特别是全文强制性国标标准<建筑节能与可再生能源利用通用规范>GB55015- ...
- 基于计算听觉场景分析的语音增强系统设计
基于计算听觉场景分析的语音增强系统设计 在matlab中,语音增强的算法有很多种,其中比较常见的算法有谱减法和维纳滤波法,今天介绍一种比较少见的算法,以计算听觉场景分析为基础,采用时频掩蔽的方法进行语 ...
最新文章
- USACO 3.1 Agri-Net 最短网络 (最小生成树)(克鲁斯卡尔算法)
- 遇到多个构造器参数时要考虑使用Builder
- 王者荣耀最难选择题2选1,刺痛cos虞姬,还是北极星露脸?我选一
- 使用 C# 9.0 新语法提升 if 语句美感
- 迎元旦,庆surging 1.0发布
- nagios整合cacti2011版(五)
- gulimall(谷粒商城) 是一个综合性的B2C平台,包括前台商城系统以及后台管理系统
- 解决pod没有权限问题
- java程序包怎么更新,从Java 8升级到Java 11-软件包sun.util不存在
- Photoshop cc2019 破解教程
- java项目环境怎么写_开发环境怎么写
- 计算机关于容量换算long转double精确度更准确
- 半桥llc 增益 matlab程序,“狠”完整的LLC谐振半桥电路分析与计算!
- flappybird android源码,iOS学习之flappyBird游戏的实现
- Unity3D 下载导入DoTween插件
- python编程:从入门到实践习题第五章5-8~5-11
- 数据结构之中缀表达式转为后缀
- 在vscode里配置ESLint和Prettier
- 关于《构建之法》第四章和第十七章的问题
- vi 全单词 (whole word) 搜素