在进行基因组组装之前,对基因组进行简单的评估,以获取基因组大小杂合度重复序列等特征有助于我们概括性的了解将要获取的基因组的大致信息。K-mer analysis是快速对基因组的上述概况进行评估的常用方法。

一、K-mer analysis

1、什么是K-mer

K-mer:这个词可以拆分成两部分来看,其中 K 代表多少个碱基,而 mer 则代表片段;所以 K-mer 即表示 K 个碱基长度的短片段。例如:21-mer表示 K = 21 bp 短片段(Fig. 1)。

Fig. 1: K-mer的划分。

2、K-mer 分析

K-mer分析:就是把测序获得每个的read每隔一个碱基取 K 个碱基长度的片段(K-mer),并统计所有reads生成的 k-mers 的种类和数目,并制成频率分布,从而获取基因组的概括性信息。
如下图(Fig. 2)是基于木犀科的丁香(Syringa oblata)的全基因组(2 n)测序数据进行k-mer分析得到的结果。

Fig.2: Syringa oblata基因组的k-mer分析。

二、使用jellyfish进行k-mer分析

jellyfish是一款通过Hash table存储数据的k-mer分析软件,可多线程运行,且只占较小内存。

1、安装及配置

在下载时记得下载2.0+版本,因为2.0以下的版本支持的k-mer长度范围较小,但是2.0以上则无k值的限制。
从Github主页下载:

#从Github下载
wget https://github.com/gmarcais/Jellyfish/releases/download/v2.3.0/jellyfish-2.3.0.tar.gz

解压并进入目录:

#解压
tar -zxvf jellyfish-2.3.0.tar.gz
#进入目录
cd jellyfish-2.3.0/

配置环境变量,编译并安装:

./configure --prefix=$HOME
make -j 4
make install

查看是否安装成功(出现相关的版本信息):

jellyfish --version

2、简单使用

jellyfish软件具有多个子命令:

命令 功能
count 计算k-mer分布
merge 合并hash结果
dump 输出带有计数信息的k-mer清单
stats 显示部分k-mer的hash的统计结果
histo 生成k-mers出现次数的直方图数据
query 查询特定k-mer序列出现的次数
cite 软件相关文章引用信息
men 快速评估count命令所需的内存量

count是jellyfish实现主要功能的命令,使用格式为:

#计算input.fasta的k-mer分布
jellyfish count -m 22 -o output -c 3 -s 10000000 -t 32 input.fasta

子命令 count几个重要的参数:

参数 功能
-m k值,即k-mer的长度,单位bp
-o 输出文件名前缀
-c 最大值为27=1282^{7}=12827=128。对于测序数据,最好达到coverage的两倍,比如10×\times×的测序结果使用-c 5,即25>202^{5}>2025>20。
-s 初始hash大小,估计方法:-s对应的值约等于(G+k×n)/0.8(G+k\times n)/0.8(G+k×n)/0.8,此参数太小会生成中间文件
-t 计数时使用的线程数
-C 当不知道序列的方向时,需要添加此参数,即同时统计两个方向的k-mer

3、具体例子

这里使用的是丁香(Syringa oblate)的全基因组测序数据(SRR号:SRR16093229),根据文章内容,将k值设定为25进行分析。

(1)k-mer counting

#进行k = 25的k-mer计数
jellyfish count -m 25 -o S_oblata_WGS_single.jf -c 6 -s 1724000000 -t 32 S_oblata_WGS_single.fasta

结果文件:S_oblata_WGS_single.jf

(2)查看部分统计学信息

#查看部分统计学信息
jellyfish stats S_oblata_WGS_single.jf

(3)转换为.histo文件

在取得结果后,为了后续使用GenomeScope进行下游分析,需要将结果转换为直方图,即.histo文件

#转换为直方图格式
jellyfish histo -t 10 S_oblata_WGS_single.jf > S_oblata_WGS_single.histo

(4)查看结果的相关信息

如果间隔时间过长,忘记了分析时候设置的信息,可以使用info命令查看结果的有关信息。

#查看结果有关信息
jellyfish info S_oblata_WGS_single.jf

Ending!!

相关文章:

Ma B, Wu J, Shi TL, Yang YY, Wang WB, Zheng Y, Su SC, Yao YC, Xue WB, Porth I, El-Kassaby YA, Leng PS, Hu ZH, Mao JF. Lilac (Syringa oblata) genome provides insights into its evolution and molecular mechanism of petal color change. Commun Biol. 2022 Jul 9;5(1):686. doi: 10.1038/s42003-022-03646-9. PMID: 35810211; PMCID: PMC9271065.

基因组特征评估——k-mer analysis相关推荐

  1. Genomic characterization of metastatic breast cancers 转移性乳腺癌的基因组特征

    转移性乳腺癌的基因组特征 本文是来自法国 Fabrice André 2019年5月23日发在Nature上的一篇文章 本文就617例转移乳腺癌病人的基因组特征进行研究,发现在转移的HR+的乳腺癌中( ...

  2. 论文解读《ISGm1A:整合序列特征和基因组特征,提高对人类m1ARNA甲基化位点的预测》

    ​ 目录 摘要 索引术语 一.介绍 二.方法 A.数据集的构建B.特征表示1)序列特征2)基因组特征C.评价指标 三.结果和讨论 A.通过交叉验证比较五种分类器B.独立测试中5个分类器的比较C.功能选 ...

  3. word2vec模型评估_特征工程(下)—特征评估

    点击上方"大数据与人工智能","星标或置顶公众号" 第一时间获取好内容 作者丨stephenDC 编辑丨Zandy 这是作者的第15篇文章 本文是特征工程系列的 ...

  4. 史上最权威宏基因组软件评估—人工重组宏基因组基准数据集

    写在前面 近年来,宏基因组学得到了快速发展,但由于研究对象包含成百上千物种混合体,仍面临三大挑战---高度复杂混合物种基因组拼接.混合序列分箱(bin)重构单菌基因组.基因组的物种分类鉴定与注释. 虽 ...

  5. 2020.12.10【读书笔记】丨基因组De novo 产品介绍

    基因组De novo 简介 基因组 定义:基因组就是物种所含有的一套遗传物质 单倍体 细胞核. 细胞器所 含的全部 DNA 分子),包括全套基因和间隔序列. 基因组观察维度 基因组测序 基因组测序( ...

  6. 生信步骤|kmc+genomescope进行基因组调查

    在组装未知基因组时,往往需要利用重测序数据提前进行基因组调查,以获取其基因组规模,杂合率,重复序列比例,GC含量等信息.从而更好地拟定后继测序策略.基因组调查可以采用kmers方法.kmers基因组调 ...

  7. 使用 GCE 进行基因组大小评估

    使用 GCE 进行基因组大小评估 1. GCE 简介 GCE(Genome Characteristics Estimation) 是华大基因用于基因组评估的软件,其参考文献为:Estimation ...

  8. De novo 测序基础知识

    名词解释 De novo:拉丁文,从头开始的意思,de nove测序则是指在不需要任何参考序列的情况下对某一物种进行基因组测序,然后将测得的序列进行拼接.组装,从而绘制该物种的全基因组序列图谱. 重测 ...

  9. iMeta | 华中科技大学杨操组综述细胞外囊泡和微生物组的互作:疾病治疗新策略...

    点击蓝字 关注我们 细胞外囊泡和微生物组的互作:疾病治疗新策略 iMeta主页:http://www.imeta.science 综  述 ● 原文链接DOI: https://doi.org/10. ...

最新文章

  1. 构建安全的Xml Web Service系列之SSL篇
  2. 企业级UML/MDA工具Trufun 2007系列发布!
  3. android log丢失(三)动态切换logd机制和kernel机制
  4. Python高级特性(一)
  5. Ubuntu21.04开机自动挂载Windows硬盘分区
  6. for循环执行 mybatis_mybatis sql循环的使用
  7. 深度学习-Tensorflow1.x-CNN中的padding参数
  8. nginx基础概念(100%)之lingering_close
  9. 团队管理心得--建团队,管事理人
  10. 按键精灵---大漠完美注册
  11. java cmyk和rgb的转换_CMYK和RGB怎么转换
  12. Wpremig的AH之战题解
  13. PS常用案例步骤详解,自学 Photoshop 2022 Mac版——笔记 3实战PS做练习题
  14. 自然语言处理(NLP)技术在医疗保健领域中的八个案例
  15. uniapp通讯录等敏感权限检查、申请。获取通话记录等内容
  16. Html 使用svg图标、iconfont的使用方法
  17. c语言expand函数,练习 3-3 编写函数expand(s1, s2) (C语言 + 详细注释)
  18. 分布式任务xxl-job调度中心安装说明
  19. 欧盟非个人数据流动监管新进展
  20. Unity获取物体下的子物体

热门文章

  1. Delphi中的编译期函数Dec,Inc,Odd,Pred,Succ,Ord,Chr,Low,High,Sizeof【转】
  2. 范冰冰李晨爱巢疑曝光 高科技智能停车场甩狗仔
  3. Nginx--secure_link和geoip_module
  4. 互联网日报 | 董明珠2020年直播带货476亿;滴滴橙心优选启动“小店战略”;苹果开始自研调制解调器...
  5. 这几款软件,你千万别装
  6. Algorithm:串联所有单词的子串
  7. 出牌,用程序判断手中的牌是否能够压过对方出牌
  8. 一般将来时语法课教案_一般将来时的被动语态语法课教学设计
  9. CANoe DLL编程(六)—— DLL文件的二次封装
  10. 该文件没有与之关联的应用...的解决方法