FALCON组装参数学习

(2017-06-27 13:15:32)

转载

  分类: 三代

############################################

pa_DBsplit_option= -a -x500 -s200

将所有reads转换成二进制形式,并按照一定的大小例如400M分成小的block,每个block间进行相互比对,使用kmer在相互比对的block之间寻找关联,关联结果存储在las文件中。举个例子一个3G的基因组,按照300M可分成10份。假如kmer=14, 4**14 = 268,435,456每一种kmer在基因组中出现10次。那300M一种kmer随机出现的概率不超过1次。主要是考虑重复序列的问题。当遇到小基因组的时候2M基因组,200X测序。你再把它分成400M一个block,设置t=100,显然一个也找不到了,因为平均都是200X,这个时候解决的办法就是缩小block大小。默认t=100会消耗掉很多内存。如果是小基因组建议设置成50M。也就是-s=50例如大肠杆菌。

-a 每个ZMW孔只取最长的subreads,如果考虑所有reads,请添加参数-a(如果测序数据够的情况下可以不用这个参数,如果不够需要添加这个参数).

-x忽略长度低于500reads

############################################

pa_HPCdaligner_option=-v -B10 -t16 -e0.75 -M32 -l1800 -k18 -h240 -w8 -s1000 -T4

如果基因组组分有偏好性(例如65% AT rich)应该设置b参数。

M参数控制内存。

l默认是1000,低于这个长度的序列不用比对

s默认是100,输出点也可以设置成500提高速度,也有1000

e准确性默认是0.7一般的设置成0.75

t参数是控制在一个block里一个kmer出现的最多次数,这个参数有的设置8,12,16.这个值越小速度越快。

k(kmer)要小于32,线程数目T默认是4.

B参数决定一个job中包含的block之间比对的数目,因为命令总数一定。B的参数越大job数目也就越小,但是每个job运行的时间较长;B参数越小,每个job包含的运行命令越小,运行时间短,但是job数目增加了。这个参数很多文献中使用128但是还是设置的小一些例如24(也有设置为4的),这样你可以多投递几个任务。

将两条序列进行比对,放在矩阵的位置上,如果完全相似则是一条对角线,一般不是这种情况,而是多处相似。这就产生了两条平行线,平行线之间的距离称为带宽(w默认6,26,有的文献用的是8)当然是越小比对越精确,宽度有了还有长度,这长度就是h(默认35,有的文献设置80,240,480)当然是越长越好,速度越快。

############################################

ovlp_HPCdaligner_option =-v -B10 -t32 -M32 -k24 -h750 -e.96 -l1500 -s1000

与ovlp_HPCdaligner_option 相比以上的参数中如果上面的-t参数设置16,则这里的-t可以设置为32也可以一样,而这里的e可以设置到0.9以上(一般是0.96也有0.92)。而-l参数一般是这里设置的比上面的小也可以等于一般是一般例如上面设置为1000则下面设置为500,如果上面设置4800,下面设置为2400。

理想状态length_cutoff_pr这个值设置在10x-15x 。如果调低这个参数则对应legnth_cutoff、falcon_sense_option也要调整。

job_*是daligner输出目录

m_*运行目录一般是你分成多少block就有多少个文件夹

https://github.com/PacificBiosciences/FALCON/wiki/Somethings-to-think-about-for-tuning-assembly-parameters

分享:

FALCON组装参数学习相关推荐

  1. [云炬python3玩转机器学习笔记] 2-4批量学习、咋西安学习、参数学习和非参数学习

    机器学习的其他分类: 在线学习(online learining)和批量学习(离线学习 batch learning/offline learning): 批量学习(之前没有具体说明的话,都可以用批量 ...

  2. [转]Python3之max key参数学习记录

    Python3之max key参数学习记录 转自https://www.cnblogs.com/zhangwei22/p/9892422.html 今天用Python写脚本,想要实现这样的功能:对于给 ...

  3. 动手组装深度学习机器+RTX2070Super

    动手组装深度学习机器 前言 机器配置说明 总结配置清单 硬件安装及注意事项 CPU安装 内存安装 主板安装 固态安装 硬盘安装 GPU安装 散热安装 插线 后记 前言 从硬件层面来讲,正是得益于GPU ...

  4. 【机器学习】隐马尔可夫模型及其三个基本问题(三)模型参数学习算法及python实现

    [机器学习]隐马尔可夫模型及其三个基本问题(三)模型参数学习算法及python实现 一.一些概率与期望值的计算 二.非监督学习方法(Baum-Welch算法) 三.python实现 隐马尔可夫模型参数 ...

  5. 常见的五种神经网络(4)-深度信念网络(下)篇之深度信念网络的原理解读、参数学习

    该系列的其他文章: 常见的五种神经网络(1)-前馈神经网络 常见的五种神经网络(2)-卷积神经网络 常见的五种神经网络(3)-循环神经网络(上篇) 常见的五种神经网络(3)-循环神经网络(中篇) 常见 ...

  6. 如何组装深度学习的计算机

    今天这篇博客来讲讲进行深度学习时,所需的设备配置的问题. 1.如果需要运行特别大的深度学习模型,可以用一些在线的资源,比如华为云.Paddle.Amazon Web Services.Google C ...

  7. 【论文精读】时序逻辑推理之反向传播参数学习 Backpropagation for Parametric STL

    前言:借这里汇报一下毕业论文的进度,结构学习部分的论文和代码已经完成98%,现在回头搞参数学习发现现在掌握的方法都不能很好地契合毕设的整体结构.因此现在飞速地多看几篇,争取本周完工. 主要参考文献: ...

  8. 贝叶斯网专题11:参数学习之极大似然估计

    第一部分:贝叶斯网基础 1.1 信息论基础 1.2 贝叶斯网基本概念 1.3 变量独立性的图论分析 第二部分:贝叶斯网推理 2.1 概率推理中的变量消元方法 2.2 团树传播算法 2.3 近似推理 2 ...

  9. 贝叶斯网专题12:参数学习之贝叶斯估计

    第一部分:贝叶斯网基础 1.1 信息论基础 1.2 贝叶斯网基本概念 1.3 变量独立性的图论分析 第二部分:贝叶斯网推理 2.1 概率推理中的变量消元方法 2.2 团树传播算法 2.3 近似推理 2 ...

最新文章

  1. Docker源码分析(十):Docker镜像下载
  2. socket通信数据类型
  3. kafka connect_Kafka Connect在MapR上
  4. Linux 服务器程序规范、服务器日志、用户、进程间的关系
  5. 韩顺平php视频笔记70 面向对象编程的三大特征1 抽象 封装
  6. SpringBoot+拦截器+自定义异常+自定义注解+全局异常处理简单实现接口权限管理...
  7. git使用之搭建git仓库
  8. 网络多人游戏架构pdf_21秒看尽ImageNet屠榜模型,60+模型架构同台献艺
  9. 三阶交调截取点的测量
  10. 插头dp ——从入门到跳楼
  11. 【ArcGIS Server】切片时C盘空间不足(本地缓存目录空间不足)
  12. 测试基础(含答案2)
  13. 如何利用电脑将文件刻录到光盘里面
  14. 米兰大学计算机科学,米兰大学
  15. 记录人生第一个网站,以及相对路径图片无法显示的问题
  16. Hive编程指南01
  17. html水平排列三个元素,且三者占宽度相同
  18. 汉字的Unicode 内码
  19. Android 完美自定义Dialog
  20. qt make project

热门文章

  1. 告别Heatmap!人体姿态估计表征新方法SimDR
  2. 基于先验LiDAR点云地图的单目VIO定位(IROS 2020)
  3. 图像反光能被一键去除了?港科大开源RFC,仅用一个操作,强反光也能完美去除|CVPR2021...
  4. 自动驾驶中,激光雷达点云如何做特征表达
  5. 多目标跟踪:监控领域你必须要了解的算法
  6. 事件相机特征跟踪-EKLT方法
  7. OpenCv java 颜色空间(9)
  8. base64 解码
  9. 关于学习TensorFlow推荐的一些资源及使用方式
  10. 关于Docker的理解