原标题:叶绿体和线粒体基因组的组装研究

小基因组的重要意义

对于基因组组装,我们再熟悉不过了,核基因组de novo已是经典,然而,线粒体和叶绿体小基因组的研究也不容小觑。由于叶绿体和线粒体基因组的高度保守性,它的遗传形式多样而以母系遗传为主,在组织培养和体细胞杂交中具有稳定性强,单亲遗传的特点。对于研究叶绿体或线粒体基因组的突变或结构变异的信息挖掘,在研究植物进化,分类,遗传多样性等方面有重要的意义,对小基因组进行基因注释,是探讨植物光合作用机理,植物能量代谢,植物抗氧化及次生代谢的基础。

前段时间,小编做了某作物的叶绿体和线粒体基因组的组装,整理了一下拼接方法,分享给需要的小伙伴儿!

拼接方法基本简介

线粒体和叶绿体基因组均属于小基因组,动物线粒体一般为10~39kb,植物中线粒体大小差别较大,一般100kb以上。我们通过比对已经发表的近缘物种的线粒体基因组来获得研究物种的测序reads,之后再利用常用的小基因组拼接软件进行组装,这里小编推荐两款组装软件。

第一款软件,效果相比处理要好一些,而且简单方便,从reads到组装结果一键式完成。软件名称:ARC (Assembly by Reduced Complexity),网址:http://ibest.github.io/ARC/

这个软件也是通过reads与近缘物种的线粒体序列比对来提取reads并组装,但优化的地方在于,第一次组装之后,使用组装出来的序列替代了参考的线粒体序列,并迭代进行比对、提取、拼接等步骤,用以延伸每次组装得到的结果,最终得到完整的序列:

安装与运行

软件为python语言编写,下载后可以直接使用,运行命令也很简单:

./bin/ARC -c config.txt > log.txt

只需给定配置文件,在配置文件中给定相应文件路径和参数,就可以运行了。

第二款软件,Velvet用于拼接短序列组装,只需给定配置文件,在配置文件中给定相应文件路径和参数,就可以运行了。

数据准备

合并两个fastq文件,如果是fasta,则需将下面的代码中fastq改为fasta

建立哈希索引

直接对fastq格式的原始文件进行处理,首先是用velveth命令建立hash表子集

输入./velveth会出来使用帮助:

velveth Assem 31 -shortPaired -fasta interleaved.fna

说明:

# Assem为生成文件所在文件夹,31为设置的kmer,一般为奇数,默认的是31,(最大可设置127),-shortPaired双末端模式

- Paired-end short reads (PE1和PE2是分开的)

velveth Assem 31 -shortPaired -fasta -separate left.fa right.fa

velveth Assem 31 -shortPaired -fasta -separate left.fa right.fa velvetg Assem -cov_cutoff 30 -ins_length 350 -ins_length_sd 100 -exp_cov auto -min_contig_lgth 500

说明:

#-ins_length为Insert size加上reads的长度,我前者为160,后者为91+91,所以后面的参数为350 ;默认的

#-ins_length_sd 100为什么设置这两个参数就有点不明白了,Assem注意和第一步建立的文件夹的对应

velvet拼接过程中主要的几个需要调试的参数

主要有三个:Kmer值,exp_cov和cov_cutoff三个。本文分别设置不同的参数值,进行比较。

Kmer值是基于De Bruijn算法的高通量读段拼接软件中最重要的一个参数,Kmer必须为奇数,在执行velveth时设置。在velvet的使用说明中,有一段关于Kmer设置的一般要求,如下:

Ck= C(L-K+1)/L

L表示读段长度,K表示Kmer值,C表示碱基的覆盖深度,Ck表示kmer的覆盖深度。L值已知,C值通过基因组规模和测序量来估计,当K值设定之后,可算得Ck值。根据经验,Ck值应当大于10,才能较好地完成拼接,而当Ck值大于20时,就浪费了测序深度。Kmer值越大Ck值就越小。当测序深度加大的时候,Kmer值也可以设的更大,有利于拼接。这个公式只能确定Kmer的取值范围,在此范围内选择采用哪个Kmer值,则需要进行Kmer参数值的调试。

在执行velvetg时,可设定exp_cov和cov_cutoff两个选项。选项cov_cutoff用来过滤低覆盖深度的contigs,选项exp_cov为预期的覆盖深度。这两个参数可设定具体的值,默认值为“auto”。当设为auto时,软件在拼接时自动取值,如果数据的覆盖比较均匀,设为auto,拼接结果会比较好;exp_cov设为auto时,cov_cutoff也将强制为auto,auto表示覆盖深度的阈值为exp_cov的一半。返回搜狐,查看更多

责任编辑:

线粒体和叶绿体的基因组特点_叶绿体和线粒体基因组的组装研究相关推荐

  1. Nature子刊:涵盖20多万个基因组的人体肠道微生物参考基因组集

    Nature子刊:涵盖20多万个人体肠道微生物基因组的参考基因组集 A unified catalog of 204,938 reference genomes from the human gut ...

  2. 宏基因组实战8. 分箱宏基因组binning, MqaxBin, MetaBin, VizBin

    前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...

  3. 史上最权威宏基因组软件评估—人工重组宏基因组基准数据集

    写在前面 近年来,宏基因组学得到了快速发展,但由于研究对象包含成百上千物种混合体,仍面临三大挑战---高度复杂混合物种基因组拼接.混合序列分箱(bin)重构单菌基因组.基因组的物种分类鉴定与注释. 虽 ...

  4. 链读测序技术在宏基因组组装研究中的应用

    链读测序技术在宏基因组组装研究中的应用 链读测序(Linked-read sequencing)通过将相同的barcode与长DNA片段(10-100kb)的序列连接在一起,能够消除其中的一些错读,从 ...

  5. 有声专栏-宏基因组专业词汇讲解——001宏基因组

    宏基因组专业词汇讲解--001宏基因组 有声专栏-宏基因组专业词汇讲解开播了,点击上方播放本词条的有声版.也可在喜马拉雅FM中搜索<宏基因组>持续收听本专辑更新. 对于刚接触宏基因组的同学 ...

  6. 线粒体和叶绿体的基因组特点_如何组装植物叶绿体基因组

    可能出现的问题: *个人电脑上遇到不能collect memery的情况,是电脑内存较少,建议分成用2G左右的数据进行组装. * Seed.fasta #用于起始组装的种子序列,NOVOPlasty安 ...

  7. GetOrganelle软件从ngs数据中组装线粒体、叶绿体基因组;GeSeq网站注释细胞系基因组

    GetOrganelle安装 conda install -c bioconda getorganelle or download from github unzip GetOrganelle-mas ...

  8. 反向非归零编码_(宏)基因组编码基因预测

    基因预测是指通过对组装的基因组序列进行分析,根据已知生物的基因结构知识或数据库序列来识别其所包含的基因等功能区域.编码基因预测,就是识别基因组序列上所包含的蛋白质编码区域(Coding sequenc ...

  9. 宏基因组应用_宏基因组学技术在生物冶金中的应用

    宏基因组学技术与微生物浸出技术 宏基因组学作为新兴的微生物研究方法,其不依赖于有机体的培养技术手段,以微生物多样性.种群结构进化关系.功能活性相互协作关系以及与环境之间的关系为研究目的. 高通量测序技 ...

  10. 宏基因组应用_宏基因组及宏转录组测序揭示极端环境微生物的生态学作用

    中山大学与千年基因合作应用宏基因组及宏转录组测序对极端环境酸性矿山废水(Acid mine drainage, AMD)中的微生物群落进行研究,相关成果于11月7日发表于The ISME Journa ...

最新文章

  1. EP936E的IIC
  2. 【转】NG:垂枝桦基因组图谱构建(2+3组装)及重测序分析
  3. C#中常用的经典文件操作方法
  4. linux 脚本 ,shell中的与
  5. 详解spark任务提交至yarn的集群和客户端模式
  6. CM: 如何通过table SKWG_BREL快速查询product attachment信息
  7. 100个网络基础必备知识 ,值得收藏!
  8. Centos启动卡住,starting auditd: [failed]
  9. 剪绳子 算法_[校招-算法题]动态规划
  10. Retrofit2从入门到放弃
  11. 前端代码编辑器 sublime text 4 for Mac v4.0(4114) 中文设置
  12. LINUX下载编译SDL2
  13. 目标跟踪(三)——多目标跟踪
  14. 国外遥感影像如何下载之利用USGS网站影像下载无需JAVA
  15. base URL是什么意思?干什么用的?
  16. 使用pycharm + kivy开发自己的app
  17. 亚马逊云机器人平台RoboMaker新功能WorldForge使用测试
  18. java动态心形程序_java swing实现动态心形图案的代码下载
  19. bili弹幕姬_b站弹幕姬|b站弹幕姬下载_v1.0.1.126官方版_9号软件下载
  20. 计算机专业中agp是什么意思,计算机的主板,cpu,内存,显卡,硬盘的主要用途是什么?它们的单位都是什么意思?...

热门文章

  1. 【刘晓燕长难句分析】1.简单句
  2. 卡特彼勒牵手CBA联赛助力中国篮球发展
  3. 有关注册表技术的各大网站列表
  4. access 数据更新update
  5. 计算机中二进制转十进制怎么算,二进制转十进制怎么算?二进制转十进制公式及方法!...
  6. 2021-4-22-Python自动化31期-day01作业答案
  7. 在vue中修改数组某个元素,值变了,渲染不了
  8. 推荐一个统计英语词频的软件:replace pioneer
  9. 鲁宾逊《非标准分析》中译版正式上线
  10. wincc服务器设置位置,wincc客户端访问服务器设置