目录

一、2.1的功能

二、要求

三、说明

四、技术细节

五、结果文件

六、可视化


一、2.1的功能

DIY Dodecad v2.1允许使用不完整的基因型文件,即不包括计算器中使用的所有预期SNP标记的基因型文件。这对那些在测试中拥有较老基因型文件的个体很有用,并允许该工具用于任何类型的基因型数据。更重要的是它可以得到所有染色体的混合比例,所有具有一定长度的染色体区域,或者特定的感兴趣区域。

二、要求

DIYDodecad 要求:

1. Windows或32位/64位Linux计算机

2. R软件,可从如下链接下载和安装

https://www.r-project.org/

3. 原始常染色体基因型数据可以从自己所测的机构网站获得,国内的比如微基因、23魔方、基因宝、各色DNA等。

CPU和内存需求不大,在大多数情况下,对于简单的混合分析,结果将在几分钟内计算出来,对于更复杂的段分析,则最多需要几个小时。

三、说明

以下说明说明如何首次使用DIYDodecad。

1. 将DIYDodecad2.1.rar文件的内容解压缩到计算机中的某个目录中。从今以后,我们称之为“工作目录”。

如果你不知道怎么做,在 Windows 中:

选择靠近自己所在地的镜像:

https://cran.r-project.org/mirrors.html

点击“安装基础”,然后点击“基础”。

2. 从自己所测的基因公司网站下载原始数据(raw data)并解压到工作目录中,这应该是一个以.txt结尾的文件。如果您不知道如何解压缩下载的数据,您可以使用与上述步骤1相同的软件。

从现在起,假设个人的基因型文件名为“johndoe.txt”或“johndoe.csv”。

3. 启动R。

在Windows中,R将列在“开始”菜单中的程序文件或所有程序中,您可以像任何其他Windows程序一样启动它。一旦R运行,它将给您一个命令提示,您可以在其中输入命令。首先,必须将目录更改为工作目录,您可以在Windows中的File->Change dir菜单中执行此操作,或者在Windows中使用setwd命令,例如:

setwd('/home/johndoe/dodecad')
setwd('c:\\users\\johndoe\\Dodecad')

然后,输入:

source('standardize.r')

这将加载一个小程序,在下一步中将数据从公司特定格式转换为通用格式。

5. 在R提示下,输入:

a. 如果您有23andMe格式的数据:

standardize('johndoe.txt', company='23andMe')

b. 如果您有FTDNA格式的数据(仅限Illumina芯片):

standardize('johndoe.csv', company='ftdna')

此命令将写入一个名为'基因型.txt'在工作目录中;

这包含你的基因型,以DIYDodecad理解的格式。

“standard”命令按字母顺序对SNP ID进行排序,删除不同公司格式的头/注释,并输出一个文件'基因型.txt'其中每行有四个用TAB分隔符或半角逗号分隔的字段:

SNPID CHROMOSOME POSITION GENOTYPE

6. 您现在可以启动DIYDodecad了!可以从操作系统命令提示符或R中执行此操作。

a. 在操作系统命令提示符下,转到工作目录(使用“cd”命令),然后输入:

在Windows CMD中:

DIYDodecadWin dv3.par

在Windows PowerShell中:

./DIYDodecadWin dv3.par

该程序现在将开始计算您的混合比例的Dodecad V3组件。

b. 如果不知道如何使用操作系统命令提示符,可以从R环境中启动DIYDodecad。只需在R提示符下输入:

system('DIYDodecadWin dv3.par')

“dv3”对应祖源计算器Dodecad V3。

四、技术细节

DIYDodecad使用EM算法推导混合比例的最大似然估计,实现了[2]中描述的模型[1]。

[1] H. Tang, J. Peng, P. Wang, N. Risch. Estimation of individual admixture:
Analytical and study design considerations. Genet Epidemiol 28: 289-301, 2005.
[2] D.H. Alexander, J. Novembre, and K. Lange. Fast model-based estimation of
ancestry in unrelated individuals. Genome Research, 19:1655-1664, 2009.

每个DIYDodecad计算器(例如,“dv3”)由一系列文件组成:

dv3.par        运行程序的参数
dv3.alleles    基因位点和等位基因信息:SNPID    次要等位基因    主要等位基因
dv3.12.F    假定祖先群体的等位基因频率数据,这些都是由ADMIXTURE软件输出的格式
dv3.txt        祖源群体的名字

通过创建和分发一组这四个文件,您可以制作自己的计算器。注意,dv3.12.F和dv3.alletes文件应该根据SNP id按字母顺序排序。

参数文件(dv3.par用于Dodecad V3计算器)包括以下行:

1D-7
12
genotype.txt
166462
dv3.txt
dv3.12.F
dv3.alleles
verbose
genomewide

这些是:

- 终止条件(连续迭代中混合料比例的最大变化)
- 祖源群体数量
- 输入基因型文件名
- SNP(单核苷酸多态性)标记数
- 祖源群体名单
- 等位基因频率
- silent/verbose/progress
        silent:无中间输出
        verbose:打印日志可能性更改
        progress:打印中间解决方案
- genomewide/bychr/byseg/target
        genomewide:整个基因组的混合比例
        bychr: 所有染色体1-22的混合比例
        byseg: 染色体内各区域的混合比例(注:byseg模式需要两个附加参数)
                窗口大小:一个窗口包含多少个snp
                前进步骤:由多少个snp来推进窗口
        target: 基因组单个区域的混合比例(注:目标模式需要三个附加参数)
                染色体:1到22,区域所在的染色体
                开始:区域的物理位置(以bp为单位)
                结束:区域结束的物理位置(以bp为单位)

其中大多数不应更改,但可以更改以下内容:

- 终止条件,例如1D-10,这将导致更多的迭代运行和潜在的更精确的结果,尽管在绝大多数情况下,结果将很少受到影响。

- verbose/silent/progress; 通常,“verbose”是最好的。你也可以在“genomewide”模式下尝试“progress”,看看结果是如何收敛的;在其他模式下,迭代发生得太快(因为snp的数量较少),这使得“progress”变得不那么有用。

- genomewide/bychr/byseg/target. 如果你用“bychr”代替“genomewide”,那么你的混合比例将被估计为每条染色体。如果将“genomewide”替换为以下内容:

byseg
500
50

然后程序将使用沿一条染色体500个相邻SNP的窗口,并以50为增量滑动该窗口。因此,它将首先沿着1号染色体检测1-500个单核苷酸多态性,然后再检测51-550、101-600等,直到该染色体计算至尽头,然后继续进行第2号染色体的检测,以此类推。

较小的窗口大小可能会导致更“嘈杂”的结果,因为估计较小尺寸DNA片段的来源变得更加困难。另一方面,它为更遥远祖先的片段提供了更精细的分辨率。该程序不考虑小于10个snp的窗口大小。

一个小的进步提供了一个更全面的基因组扫描,并导致更多的片段被考虑;缺点是分析的运行时间增加。

如果你对一个特定的基因组区域感兴趣,比如用:

target
1
20000000
25000000

这将只检查1号染色体上20000000到25000000bp之间的区域。当然,在这些位置可能没有一个SNP,所以程序将使用窗口内最近的SNP。在上面的例子中,目标区域将由356个snp组成,从20008170到24953109bp。

该计划将不考虑少于10个snp的区域;除了具有高种群间频率差异的基因组区域外,很少的snp使得估计片段的起源变得困难。

五、结果文件

结果打印在屏幕上,并写入输出文件,具体取决于使用的模式(参见上一节):

genomewide.txt
bychr.txt
byseg.txt
target.txt

这个bychr.txt文件以及byseg.txt文件当程序运行时,文件会不断更新,因此您可能需要打开它们并在生成结果时检查它们。

在解释小的混合比例时要注意:在你基因组的一个大区域,这样的比例可能暗示你有一个隐藏在较大区域内的特定群体的较小片段;你可以使用较小的窗口大小来发现这些片段。

然而,请注意,随着窗口尺寸变小,一些小的混合比例可能是噪声(noise),因为在较小的区域内可能没有足够的snp来充分区分某些种群。

六、可视化

为了帮助探索你的基因组,文件中也有paint_byseg.r,这是一个用来可视化染色体混合比例的工具。您可以在R中通过输入(在工作目录中)来使用它:

source('paint_byseg.r')

paint_byseg依靠byseg.txt文件输出文件,所以您应该首先在DIYDodecad中用byseg模式分析来创建这个文件。

您可以通过输入以下内容来使用它:

paint_byseg(chr=20,calc='dv3')

这将绘制出你的20号染色体。这可能是一个非常混乱的图,所以你可能想把自己限制在染色体的一个较小的区域(以Mb为单位),例如

paint_byseg(chr=20, region=c(50,60), calc='dv3')

为了使绘图更清晰,您可以在R中最大化它们的窗口,并使用windows菜单在命令提示符和绘图之间切换。

也可以将打印写入图像文件:

paint_byseg(chr=20, region=c(50,60), calc='dv3', tofile=T)

或者,想把图像尺寸变大:

paint_byseg(chr=20,region=c(50,60),calc='dv3', tofile=T, width=2000,height=1000)

这将在您的工作目录中输出一个文件“Chromosome8.png”。

要消除混乱,您可以选择只打印段中顶部/底部的少数组件。您可以通过:

paint_byseg(chr=20, region=c(50,60), calc='dv3', top=3)
paint_byseg(chr=20, region=c(50,60), calc='dv3', bottom=3)

或者,您可以只绘制所需的组件,但要注意拼写正确!

paint_byseg(chr=20, calc='dv3', choice=c("West_Asian", "East_European"))

另外,您可以使用键盘的上下箭头返回命令历史记录,这样您就不必重新键入所有内容。

DIY Dodecad 2.1的程序下载链接如下:

https://dodecad.blogspot.com/2011/09/do-it-yourself-dodecad-v-21.html

由于国内无法直接访问,因此该程序包也备份至百度网盘中:

提取码:Ddcdhttps://pan.baidu.com/s/17fke4rPlAHvF6ZgUXQ4Lww?pwd=Ddcd

详细内容也可阅读压缩包内的README文件。

在Windows系统中使用DIY Dodecad 2.1 分析祖源的方法相关推荐

  1. ip设置 kali 重置_在 Windows 系统中如何重置 TCP/IP 协议堆栈修复网络连接问题

    Internet 在 TCP/IP 协议上工作,如果 TCP/IP 协议堆栈在 Windows 或任何其他操作系统(例如 Linux 或 MacOS)中无法正常工作,则您的 Internet 连接会出 ...

  2. windows系统中,在当前目录下打开cmd命令行的两种方法

    windows系统中,在当前目录下打开cmd命令行的两种方法 1.在当前路径地址栏中直接输入'cmd',然后回车. 2.在当前路径下,按住'shift'键同时点击鼠标右键,点击"在此处打开P ...

  3. Cmder命令行工具在Windows系统中的配置

    一.Cmder简介 Cmder:一款用于Windows系统中,可增强传统cmd命令行工具的控制台模拟器(类似于Linux系统中的终端控制窗口) 特点: 无需安装,解压即用 可使用较多Linux命令,如 ...

  4. Windows系统中让硬盘更快的九大绝招

    Windows系统中让硬盘更快的九大绝招 一.合理使用硬盘  何为合理使用硬盘呢?首先我们要了解硬盘盘片的物理结构.分区并格式化后的硬盘却是以扇区为基本单位的,一个分区是由若干个扇区构成的.那什么是扇 ...

  5. Windows系统中安装Python模块pip numpy matplotlib

    Windows系统中安装Python模块pip numpy matplotlib  [尊重原创,转载请注明出处]http://blog.csdn.net/guyuealian/article/deta ...

  6. 在Windows系统中配置Google AddressSanitizer

    Google AddressSanitizer简介 AddressSanitizer (ASan) 是 C 和 C++ 的内存错误检测软件,它可以检测: 释放指针后继续使用 堆缓冲区溢出 栈缓冲区溢出 ...

  7. windows系统中创建线程常用哪几个函数,有什么区别?

    windows系统中创建线程常用哪几个函数? 在windows系统中创建线程的函数有: CreadThread,AfxBeginThread,_beginthread,_beginthreadex. ...

  8. mysql 重装,Windows系统中完全卸载MySQL数据库实现重装mysql

    一.在控制面板,卸载MySQL的所有组件 控制面板-->所有控制面板项-->程序和功能,卸载所有和MySQL有关的程序 二.找到你的MysQL安装路径,看还有没有和MySQL有关的文件夹, ...

  9. 在Windows系统中下载并安装Docker-desktop

    在Windows系统中下载并安装Docker-desktop 推荐目录:https://t.cn/A6ApnczU Docker for Windows 在Windows上运行Docker.系统要求, ...

  10. 如何将文件二进制传输至aix服务器,有什么办法把文件从WINDOWS系统中传到AIX中?...

    有什么办法把文件从WINDOWS系统中传到AIX中? (2011-12-21 04:19:38) 标签: 杂谈 有什么办法把文件从WINDOWS系统中传到AIX中?我有一台笔记本可以远程登陆170和F ...

最新文章

  1. Ansible中文手册
  2. 交叉编译inetutils并配置telnet服务
  3. C++主题年技巧积累#1——UltraEdit的代码美化
  4. 天翼云从业认证课后习题(3.5云安全产品)
  5. 主存储器与CPU的连接
  6. linux db2创建存储过程语法,EF基础一-db2存储过程中循环语句while do...-oracle 创建DBLINK_169IT.COM...
  7. 如何更改从Outlook发送的电子邮件中的“答复”地址
  8. TQ210 —— S5PV210 gboot设计
  9. html div 转图片或视频投放大屏
  10. mysql-proxy中间件使用
  11. 问题六十四:怎么用C++实现二叉查找树(binary search tree)及其相关操作
  12. iosmask_iOS Mask属性的详细介绍及应用实例_IOS_脚本之家
  13. GBK 汉字内码扩展规范编码表
  14. 图片太大怎么压缩变小?教你四招快捷压缩图片
  15. 快速低成本的组建Symbian团队(使用pys60)
  16. 企业地图定位,其实这是免费的!
  17. iOS最新面试题(一)
  18. 扒谱大杂烩-都是前辈写的
  19. 【第三届蓝桥杯】手机尾号
  20. 房价基本上决定于货币政策.----看中国货币发行量增长

热门文章

  1. 【模糊回归预测】基于matlab萤火虫算法优化模糊神经网络回归预测【含Matlab源码 2034期】
  2. 计算机发表sci论文,sci2区计算机论文容易发表吗?
  3. 计算机休眠后无法连接无线网络,笔记本Win7系统唤醒休眠模式后无线无法自动连接怎么办...
  4. CVPR 2022 Oral | 视频文本预训练新SOTA,港大、腾讯ARC Lab推出基于多项选择题的借口任务
  5. 全局变量、函数原型和Guard macro
  6. JAVA毕业设计共享充电宝管理系统计算机源码+lw文档+系统+调试部署+数据库
  7. 设计一个抽象类图形类,在该类中包含有至少两个抽象方法求周长和求面积,分别定义圆形类、长方形类、正方形类来继承图形类,并实现上述两个方法。并创建实例验证。
  8. html p首字母缩进,css如何控制首行缩进2个字符?
  9. 携程2020算法校园招聘笔试
  10. web3.0 兴起之际,元宇宙不属于任何一家科技巨头