本文摘自文章:Soft Shoulders Ahead: Spurious Signatures of Soft and Partial Selective Sweeps Result from Linked Hard Sweeps,Daniel R Schrider, Fábio K Mendes, Matthew W Hahn, Andrew D Kern,Genetics, Volume 200, Issue 1, 1 May 2015, Pages 267–284

文章主要讨论了在 时间、空间 两个维度下 重组、漂变随机因素 的引入,使选择清扫留下 遗传图谱不断磨损。如硬清扫图谱磨损至软清扫,再到中性。磨损不仅会导致 选择痕迹变轻,还会导致 图谱的连续性被破坏。如随机性还会导致图谱被 ”打断“,使研究人员难以确定两个相近的清扫是两次选择留下的,还是一次选择留下的。作者模拟并计算了各种情况下的多种群体遗传统计参数,通过机器学习模型 SVM 对遗传图谱的类别进行判断,以箱线图、折线图的方式形象展示了各种因素对遗传图谱的磨损。可惜的是作者提出了问题,但没有给出相应的解决方案。也许是工作量或研究目的原因,作者并没有将 SVM 与其他预测软件进行比较,讨论是否 SVM 无法处理的问题可以被别的算法所解决。

名词解释

  • 软肩效应(soft-shoulder effect):硬清扫选择位点的相邻中性区间,由于突变、重组等因素,可能呈现出类似不完全清扫或软清扫的图谱。
  • 不完全清扫(incomplete sweep):受选择的位点尚未固定时留下的群体遗传图谱。尚未固定的原因可能是采样时选择仍在进行中,或者等位基因具有杂合优势,或者固定完成前环境改变,有益突变转变为中性、有害突变。
  • 基因转换(Gene conversion):生物基因组中一段 DNA 序列将另一段与其同源的 DNA 序列取代的机制,可在减数分裂时发生在同源染色体对应的等位基因之间(allelic gene conversion),也可发生在染色体内或同源染色体间的同源基因(如基因簇或串连重复基因中的数个基因)之间(ectopic gene conversion),使各基因序列趋于一致。

实验步骤

1. 群体模拟参数

  • 群体内个体数:N=50N=50N=50
  • 群体突变率:θ=4Nμ=0.01θ=4Nμ=0.01θ=4Nμ=0.01,μμμ 为碱基突变率
  • 突变热点的群体突变率(4NμA4Nμ_A4NμA​)是从均匀分布 U(1,2.5)U(1,2.5)U(1,2.5) 中随机抽取得到
  • 常态突变的频率是从均匀分布 U(0.05,0.2)U(0.05, 0.2)U(0.05,0.2) 中随机抽取得到
  • 选择系数与群体大小:α=2Ns=1000/2000/3000α=2Ns=1000/2000/3000α=2Ns=1000/2000/3000,sss 为选择系数(压力)
  • 群体重组率:ρ=4NrLρ=4NrLρ=4NrL,rrr 为碱基对间交换率,LLL 为两碱基间距离(单位 bp);在模拟中 N,rN, rN,r 固定,所以 ρρρ 主要用于反映距离 LLL
  • 群体基因转换率:4Nγ=[0,50,100,...,450,500]4Nγ= [0, 50, 100, ..., 450, 500]4Nγ=[0,50,100,...,450,500]
  • 染色体区间长度:10/100/210/500kb10/100/210/500 kb10/100/210/500kb
  • 突变固定后的观测时间点:0.000625/0.00125/0.0025/0.005/0.01/0.02/0.04/0.08/0.16/0.32/0.64/1.28∗2N0.000625/0.00125/0.0025/0.005/0.01/0.02/0.04/0.08/0.16/0.32/0.64/1.28 * 2N0.000625/0.00125/0.0025/0.005/0.01/0.02/0.04/0.08/0.16/0.32/0.64/1.28∗2N
  • 模拟次数:100010001000

2. 群体模拟数据集(Table S1)

  • 1 - 8:SVM 的 训练集,区间长度 10kb(total ρ=100ρ=100ρ=100),选择位点在区间中间(0.5)。
  • 9 - 11:测试硬清扫位点的侧翼 连锁区间 的图谱被判断为 软清扫 的可能性,区间长度 100/200/500 kb,选择位点在区间左侧(0.05)。
  • 12 - 15:测试硬清扫位点的侧翼 连锁区间 的图谱被判断为 不完全清扫 的可能性,区间长度 100/200 kb,选择位点在区间中间(0.5)。
  • 16 - 18:检测硬、软清扫侧翼被错误识别的可能性,与使用 最值定位法 的准确性,区间长度 210kb,选择位点在区间中间,两边侧翼各有 100kb 的区间。
  • 19:测试固定后 时间 因素对 选择位点的遗传图谱 的影响,区间长度 10kb,选择位点在区间中间。
  • 21:测试固定后 时间 因素对选择位点 侧翼图谱 的影响,以及是否会影响 选择位点 的判断,区间长度 210kb,选择位点在区间中间。

3. 根据模拟结果计算各群体遗传统计参数

群体遗传统计参数主要分为以下几类:

  1. 等位基因数量及频率:核酸多样性 πππ、Tajima’s DDD、Fay and Wu’s θHθ_HθH​、H 统计
  2. 单倍型数量及频率
  3. 连锁不平衡:LD、Kelly’s ZnSZ_{nS}ZnS​、Kim and Nielsen’s ωωω
  4. iHS(integrated haplotype score,综合单倍型评分)

将模拟数据集以 10kb 为单元对区间进行分割,使一个大区间划分为多个小窗口,计算每个窗口中各统计参数的数值。1000 次模拟会得到 1000 组值,下图将结果以箱线图的方式呈现。纵坐标为参数值,横坐标为遗传距离, ρ/α=2rL/s=2r×L/sρ/α=2rL/s=2r×L/sρ/α=2rL/s=2r×L/s,ρ/αρ/αρ/α 代表的是一种遗传距离而非物理距离,所反映的物理距离随选择强度的增加而增加。

可以发现,不同参数类别变化速度不同,如 πππ 在 ρ/αρ/αρ/α 为 0.15-0.25 时基本与软清扫图谱相似,而 单倍型数量 则在 ρ/αρ/αρ/α 为 0.450.55 时基本与软清扫图谱相似 。可以理解为:不同参数对选择、重组等因素的敏感性不同。其他参数的箱线图参见文章附录。

4. 使用 SVM 预测区间类别

上述各参数作为 SVM 的输入特征。将模拟数据集 1 - 8 作为训练集,使用网格搜索训练 SVM,然后预测 9 - 11 中每个窗口的类型(硬清扫、软清扫、中性),1000 次会得到 1000 次预测结果。下图横坐标为遗传距离,纵坐标为各种分类的百分比,展示了使用等位基因频率(πππ,图 2A)、单倍型数量(图 2B)作为特征时 SVM 的预测结果。从图中可以发现,受选择位点所在区间的预测都是准确的 —— 硬清扫。在与受选择位点连锁的中性区间的判断上,随着距离的增加,SVM 预测区间为硬清扫的概率在降低,软清扫的概率先升后降,中性的概率不断增加。其中以 πππ 作为特征时 SVM 较为敏感,当 ρ/α=0.2ρ/α= 0.2ρ/α=0.2 时 SVM 已经很难将区间预测为硬清扫。

同时作者发现,将 4 类群体遗传统计参数一起作为特征输入 SVM 也并不能改变硬清扫附近连锁中性区间的软清扫图谱(图 2D)。

5. 挖掘受选择位点所在区间

值得注意的是,我们研究选择留下的遗传图谱的目的是挖掘受选择位点。所以准确挖掘受选择位点所在的区间是一个十分重要的问题。如果错将受选择区间邻近的中性区间误判成受选择区间,那么对后续的基因功能分析会带来很多误差。

  1. 从上面的实验结果可以看出,各种遗传统计参数值都显示出了良好的趋势性,受选择位点都是参数的最值处(波峰或波谷),那么是否只要图具有良好的波形,其波峰或波谷处就是受选择位点所在的区间?
  2. 从 SVM 的预测结果可以看出,预测判定具有良好的趋势性,都是从硬清扫逐渐过渡到软清扫,再到中性。在这种规律下,软肩效应对实际的预测影响不大。那么是否可以粗略的判断,如果是 “中-软-硬-软-中” 模式,则受选择位点在硬清扫区间;如果因选择压力不强等因素导致 “中-软-软-软-中” 模式,即软清扫下的固定,则受选择位点在软清扫区间的中部?

5.1 最值定位法

模拟数据集 16 - 18 的结果显示,硬清扫中最值定位比较准确,但是在软清扫中定位不够准确。下图展示了两个定位准确度较高的统计参数的频率分布图。最值定位法缺点:1. 无法识别到单元区间内(如本文是 10kb)发生多次选择的情况;2. 漂变、重组等因素中的随机性会在固定后时间的增加中被不断放大,造成最值与受选择位点间距离不断增加(见下文)。

5.2 预测定位法

以 SVM 预测出的 “中性” 区间作为清扫间的分割点,受选择位点约在每个清扫区间的中部。预测定位法缺点与最值定位法一样,随机性所导致的偶然 “中性” 会意外的多切割出一个受选择区,造成误差。

如 SVM 在预测模拟数据 16 时,判断硬扫描的正确率是 97.9%,但其中有 68.1% 的模拟群体中检测到了多次选择(清扫之间间隔至少1个 “中性“ 区间。这也导致两个 距离较近 的清扫,难以判断是 两个选择 还是 一个因随机因素被 ”打断“ 的选择

6. 时间对固定后遗传图谱的影响

当有益突变固定后,区间就转变成为了 “中性”,影响图谱的因素不再有选择系数,只剩下重组、漂变等随机因素。所以问题转变为 随机因素对硬、软清扫遗传图谱的影响

模拟 19、21 的 SVM 预测结果如下图,趋势与距离相似,随着时间的增加,硬清扫被准确判定的概率不断降低,预测为软清扫概率先增后减,预测为中性的概率不断增加。同样,使用全部群体遗传统计参数作为特征也无法抵挡时间带来的 ”磨损“。

不同统计参数作为特征的实验结果显示,等位基因频率(πππ)对时间的敏感性较低,可以较为稳定的保持原有属性,而单倍型频率则较为敏感,在时间下容易被磨损。如在 0.000625×2N 代时,单倍型纯合度的错误率为 44.9%,0.01×2N 代时错误率为 51%,0.08×2N 代时错误率为 91.4% 。

总结

  1. 重组、漂变等随机因素会导致区间多样性增加,使遗传图谱变 ”软“。但以群体遗传统计参数或其组合作为特征,使用 SVM 方法,并不能有效区分硬清扫的 “肩部” 和软清扫间的差异。
  2. 随机因素会导致参数及预测的趋势被破坏,从而导致图谱识别的不准确,受选择位点定位的不准确,突变效应推断不准确等等。
  3. 随机因素带来的随机性会随着固定后时间的增加而扩大,SVM 的预测精度会不断降低。
  4. 使用最值定位法或预测定位法并不能有效去除随机因素的影响。

研究:随机因素使硬清扫区产生软件效应(Soft Shoulders)相关推荐

  1. S/HIC 系列软件:partialS/HIC 利用 CNN 识别 不完全软/硬 清扫

    内容翻译整理自文章 Discovery of Ongoing Selective Sweeps within Anopheles Mosquito Populations Using Deep Lea ...

  2. 软件:RAiSD 快速检索硬清扫区间

    本文摘自文章 RAiSD detects positive selection based on multiple signatures of a selective sweep and SNP ve ...

  3. 【iMessage苹果推】iOS 当地推送(Local Push) 安装OS CSR文件尽可能多地使每个证书区分开

    推荐内容IMESSGAE相关 作者✈️@IMEAX推荐内容 iMessage苹果推软件 *** 点击即可查看作者要求内容信息 作者✈️@IMEAX推荐内容 1.家庭推内容 *** 点击即可查看作者要求 ...

  4. 摄影师智能软件- Helicon Soft

    摄影师智能软件- Helicon Soft 在现代摄影配件市场上没有类似产品的新产品--Helicon FB Tube.Helicon FB Tube 作为传统的延长管安装在相机上,可在单次拍摄和连拍 ...

  5. 英特尔推出第二代神经拟态研究芯片Loihi 2和全新Lava软件框架

    英特尔推出第二代神经拟态研究芯片Loihi 2以及用于开发神经启发应用的开源软件框架Lava. 关于Loihi 2,据悉该款研究芯片整合了英特尔过去三年使用第一代研究芯片的收获,并充分利用英特尔制程技 ...

  6. 研究人员使用脑机接口从神经信号中重建单词

    布朗大学(Brown University)的一个研究小组已经使用脑机接口技术从非人类灵长类动物大脑中记录了神经信号,并重建了英语单词. 研究人员表示,这项发表在<Nature Communic ...

  7. 使计算机工作必不可缺的软件,探讨测绘工程中计算机制图的运用问题(原稿)

    1.样,对图纸审核工作的开展十分不利.利用CAD软件可以使图形标准工作更加方便地开展,另外还可以在非常多的地共享时也会由于这部分问题导致出现问题,进而增加工作量.探讨测绘工程中计算机制图的运用问题(原 ...

  8. 港科夜闻|香港科大与中国医药创新促进会共建创新研究平台,推动大湾区医药创新发展...

    关注并星标 每周阅读港科夜闻 建立新视野 开启新思维 1.香港科大与中国医药创新促进会共建创新研究平台,推动大湾区医药创新发展.香港科技大学与中国医药创新促进会2月27日签署合作备忘录,成立「大湾区生 ...

  9. 疾病负担研究(GBD)——如何使用joinpoint软件计算AAPC

    如需要加入GBD数据交流群,请加小编微信"Endoscopy_1991",小编拉你进群 关于GBD数据库的实操视频已经陆续更新,如需要,大家可以关注B站的"小明学习室&q ...

最新文章

  1. mpvue开发小程序所遇问题及h5转化方案
  2. 华东信标组预赛前三名
  3. 卷机神经网络的可视化(可视化中间激活)
  4. ransac剔除误匹配matlab代码,基于APAP图像拼接算法的改进
  5. ngrok服务器搭建_利用暴露在外的API,无法检测的Linux恶意软件将矛头指向Docker服务器...
  6. 系统集成资质 -考点分析- “三点估算法”出题的形式演化分析
  7. c语言编常见算法,5个常见C语言算法
  8. root用户连接mysql数据库出错 1045 access denied for user 'root'@'localhost' using password yes
  9. Unity GUI屏幕自适应
  10. PyCharm 设置运行参数
  11. Gstreamer插件编译安装的Makefile
  12. java开发steam平台_stma(steam平台)
  13. python打印输出如下图形_python题目要求:输出如下图片中的图形
  14. 大数据算法_大数据挖掘十大经典算法
  15. 互联网运营面试题_网站运营面试常见问题和答案
  16. Leetcode 368. Largest Divisible Subset
  17. 计算机系统变慢的原因,浅析win7系统变慢的原因以及如何让电脑提速
  18. 【C语言】强符号和弱符号
  19. 微信公众平台注册十大常见问题(公众号篇)
  20. 数据库课程设计《教务信息管理系统》

热门文章

  1. PHP字符串函数substr_replace(替换字符串的子串)
  2. Windows 10还原到某个时间点
  3. TPS54331 芯片手册 简介
  4. Unity Shader - URP Fog - URP 管线下的雾效
  5. dell一键还原出厂设置(dell一键还原出厂设置找不到恢复环境)
  6. PHP+MySQL编写人事公司员工工资管理系统
  7. Flutter TextField边框颜色
  8. SolidWorks 2010 SP0.0 三维机械设计
  9. 基于深度学习的建筑能耗预测04——能耗建模
  10. 含泪整理最优质家具虚幻UE4素材,你想要的这里都有