FALCON组装参数学习

(2017-06-27 13:15:32)

转载▼

分类：三代

############################################

pa_DBsplit_option= -a -x500 -s200

将所有reads转换成二进制形式，并按照一定的大小例如400M分成小的block,每个block间进行相互比对，使用kmer在相互比对的block之间寻找关联，关联结果存储在las文件中。举个例子一个3G的基因组，按照300M可分成10份。假如kmer=14, 4**14 = 268,435,456每一种kmer在基因组中出现10次。那300M一种kmer随机出现的概率不超过1次。主要是考虑重复序列的问题。当遇到小基因组的时候2M基因组，200X测序。你再把它分成400M一个block,设置t=100,显然一个也找不到了，因为平均都是200X，这个时候解决的办法就是缩小block大小。默认t=100会消耗掉很多内存。如果是小基因组建议设置成50M。也就是-s=50例如大肠杆菌。

-a 每个ZMW孔只取最长的subreads,如果考虑所有reads,请添加参数-a(如果测序数据够的情况下可以不用这个参数，如果不够需要添加这个参数).

-x忽略长度低于500reads

############################################

pa_HPCdaligner_option=-v -B10 -t16 -e0.75 -M32 -l1800 -k18 -h240 -w8 -s1000 -T4

如果基因组组分有偏好性（例如65% AT rich）应该设置b参数。

M参数控制内存。

l默认是1000，低于这个长度的序列不用比对

s默认是100，输出点也可以设置成500提高速度，也有1000

e准确性默认是0.7一般的设置成0.75

t参数是控制在一个block里一个kmer出现的最多次数，这个参数有的设置8，12，16.这个值越小速度越快。

k(kmer)要小于32，线程数目T默认是4.

B参数决定一个job中包含的block之间比对的数目，因为命令总数一定。B的参数越大job数目也就越小，但是每个job运行的时间较长；B参数越小，每个job包含的运行命令越小，运行时间短，但是job数目增加了。这个参数很多文献中使用128但是还是设置的小一些例如24（也有设置为4的），这样你可以多投递几个任务。

将两条序列进行比对，放在矩阵的位置上，如果完全相似则是一条对角线，一般不是这种情况，而是多处相似。这就产生了两条平行线，平行线之间的距离称为带宽(w默认6，26，有的文献用的是8)当然是越小比对越精确，宽度有了还有长度，这长度就是h(默认35，有的文献设置80，240，480)当然是越长越好，速度越快。

############################################

ovlp_HPCdaligner_option =-v -B10 -t32 -M32 -k24 -h750 -e.96 -l1500 -s1000

与ovlp_HPCdaligner_option 相比以上的参数中如果上面的-t参数设置16，则这里的-t可以设置为32也可以一样，而这里的e可以设置到0.9以上（一般是0.96也有0.92）。而-l参数一般是这里设置的比上面的小也可以等于一般是一般例如上面设置为1000则下面设置为500，如果上面设置4800，下面设置为2400。

理想状态length_cutoff_pr这个值设置在10x-15x 。如果调低这个参数则对应legnth_cutoff、falcon_sense_option也要调整。

job_*是daligner输出目录

m_*运行目录一般是你分成多少block就有多少个文件夹

https://github.com/PacificBiosciences/FALCON/wiki/Somethings-to-think-about-for-tuning-assembly-parameters

[云炬python3玩转机器学习笔记] 2-4批量学习、咋西安学习、参数学习和非参数学习
机器学习的其他分类: 在线学习(online learining)和批量学习(离线学习 batch learning/offline learning): 批量学习(之前没有具体说明的话,都可以用批量 ...
[转]Python3之max key参数学习记录
Python3之max key参数学习记录转自https://www.cnblogs.com/zhangwei22/p/9892422.html 今天用Python写脚本,想要实现这样的功能:对于给 ...
动手组装深度学习机器+RTX2070Super
动手组装深度学习机器前言机器配置说明总结配置清单硬件安装及注意事项 CPU安装内存安装主板安装固态安装硬盘安装 GPU安装散热安装插线后记前言从硬件层面来讲,正是得益于GPU ...
【机器学习】隐马尔可夫模型及其三个基本问题（三）模型参数学习算法及python实现
[机器学习]隐马尔可夫模型及其三个基本问题(三)模型参数学习算法及python实现一.一些概率与期望值的计算二.非监督学习方法(Baum-Welch算法) 三.python实现隐马尔可夫模型参数 ...
常见的五种神经网络(4)-深度信念网络（下）篇之深度信念网络的原理解读、参数学习
该系列的其他文章: 常见的五种神经网络(1)-前馈神经网络常见的五种神经网络(2)-卷积神经网络常见的五种神经网络(3)-循环神经网络(上篇) 常见的五种神经网络(3)-循环神经网络(中篇) 常见 ...
如何组装深度学习的计算机
今天这篇博客来讲讲进行深度学习时,所需的设备配置的问题. 1.如果需要运行特别大的深度学习模型,可以用一些在线的资源,比如华为云.Paddle.Amazon Web Services.Google C ...
【论文精读】时序逻辑推理之反向传播参数学习 Backpropagation for Parametric STL
前言:借这里汇报一下毕业论文的进度,结构学习部分的论文和代码已经完成98%,现在回头搞参数学习发现现在掌握的方法都不能很好地契合毕设的整体结构.因此现在飞速地多看几篇,争取本周完工. 主要参考文献: ...
贝叶斯网专题11：参数学习之极大似然估计
第一部分:贝叶斯网基础 1.1 信息论基础 1.2 贝叶斯网基本概念 1.3 变量独立性的图论分析第二部分:贝叶斯网推理 2.1 概率推理中的变量消元方法 2.2 团树传播算法 2.3 近似推理 2 ...
贝叶斯网专题12：参数学习之贝叶斯估计
第一部分:贝叶斯网基础 1.1 信息论基础 1.2 贝叶斯网基本概念 1.3 变量独立性的图论分析第二部分:贝叶斯网推理 2.1 概率推理中的变量消元方法 2.2 团树传播算法 2.3 近似推理 2 ...

FALCON组装参数学习

FALCON组装参数学习

FALCON组装参数学习相关推荐

最新文章

热门文章