引言

在2023年4月6日,Nature Genetics发表了一篇题目为“Super-pangenome analyses highlight genomic diversity and structural variation across wild and cultivated tomato species”的文章,该文章使用的9个野生种和2个栽培品种,阐明了茄属番茄组(Solanum section Lycopersion)的基因组演化历史,构建了首个番茄超级泛基因组/图基因组。

在文章中,作者提供了全部的分析代码和分析流程,确实很牛X,对于我们想要学习这类型的同学来说是非常友好的,也是非常有帮助的。自己一直想学习泛基因组方向的分析,但是一直由于时间或是没有系统的学习,就就没有什么进展。本文章对我们来说是非常有意义的,那就争取学习一下吧!我也会将学习过程,进行记录!

文章网址

文章链接: https://www.nature.com/articles/s41588-023-01340-y#code-availability

代码存放网址

https://github.com/HongboDoll/TomatoSuperPanGenome

组装的形式

作者提供分析的流程,主要包括这几方面。

基因组的注释

Genome annotation主要包括了以下两个内容gene predictionrepeat annaotation,其中gene prediction包含以下几个软件的使用,TrinitydenovoHisat2homologyevm
今天只是来大体看了分析的流程,没有具体开始跑流程。我们可以看到作者提供的流程还是很规范的。这样真的有助于我们后期的学习!

Trinity

#!/bin/bash                                                                                                                                      ref=S_galapagense_canu_pilon.chr.fasta
spe=S_gal
thread=10############ trinity without ref  ####
#
/share/fg2/lihb/software/trinityrnaseq-v2.10.0/Trinity --seqType fq --max_memory 100G --left s80_combine_1.clean.fq.gz,9930_39_tissues_1.fq.gz --right s80_combine_2.clean.fq.gz,9930_39_tissues_2.fq.gz -output ./S_gal_trinity_out_no_ref --min_kmer_cov 2 --trimmomatic --normalize_reads --CPU $thread
#
############### trinity with ref/share/fg2/lihb/software/trinityrnaseq-v2.10.0/Trinity --genome_guided_bam ./${spe}_10tissues.sort.bam  --max_memory 50G --genome_guided_max_intron 10000 --output ./S_gal_trinity_out_with_ref --CPU $thread################ PASAcat ./S_gal_trinity_out_no_ref/Trinity.fasta ./S_gal_trinity_out_with_ref/Trinity-GG.fasta > transcripts.fasta
cat transcripts.denovo.fasta ./S_gal_trinity_out_with_ref/Trinity-GG.fasta > transcripts.fasta
/share/fg2/lihb/software/PASApipeline.v2.4.1/misc_utilities/accession_extractor.pl < transcripts.fasta > tdn.accs
/share/fg2/lihb/software/PASApipeline.v2.4.1/seqclean/seqclean/seqclean  transcripts.fasta
/share/fg2/lihb/software/PASApipeline.v2.4.1/scripts/Launch_PASA_pipeline.pl -c /share/fg2/lihb/software/PASApipeline.v2.4.1/pasa_conf/pasa.alignAssembly.Template.txt --trans_gtf transcripts.gtf --TDN tdn.accs -C  -R -g $ref -t transcripts.fasta.clean -T -u transcripts.fasta --ALIGNERS blat --CPU $thread
/share/fg2/lihb/software/PASApipeline.v2.4.1/scripts/pasa_asmbls_to_training_set.dbi --pasa_transcripts_fasta test_80.assemblies.fasta --pasa_transcripts_gff3 test_80.pasa_assemblies.gff3
/share/fg2/lihb/software/PASApipeline.v2.4.1/scripts/pasa_asmbls_to_training_set.extract_reference_orfs.pl  test_80.assemblies.fasta.transdecoder.genome.gff3 > best_candidates.gff3

Hisat2

#!/bin/bashref=S_galapagense_canu_pilon.chr.fasta
spe=S_gal
threads=18hisat2-build -p 20 $ref re1
hisat2 -x re1 --dta -p 20 -1 CUChhxTERAAPE_1.clean.fq.gz -2 CUChhxTERAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_stem.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTHRAAPE_1.clean.fq.gz -2 CUChhxTHRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_female.flower.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTBRAAPE_1.clean.fq.gz -2 CUChhxTBRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_Expanded.ovary.Fertilized.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTFRAAPE_1.clean.fq.gz -2 CUChhxTFRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_leaf.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTGRAAPE_1.clean.fq.gz -2 CUChhxTGRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_male.flower.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTIRAAPE_1.clean.fq.gz -2 CUChhxTIRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_tendril.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTDRAAPE_1.clean.fq.gz -2 CUChhxTDRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_root.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTCRAAPE_1.clean.fq.gz -2 CUChhxTCRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_Expanded.ovary.Unfertilized.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTARAAPE_1.clean.fq.gz -2 CUChhxTARAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_ovary.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTJRAAPE_1.clean.fq.gz -2 CUChhxTJRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_base.of.tendril.bamsamtools merge -@ 20 ${spe}_10tissues.bam ${spe}_stem.bam ${spe}_female.flower.bam ${spe}_Expanded.ovary.Fertilized.bam ${spe}_leaf.bam ${spe}_male.flower.bam ${spe}_tendril.bam ${spe}_root.bam ${spe}_Expanded.ovary.Unfertilized.bam ${spe}_ovary.bam ${spe}_base.of.tendril.bam && rm ${spe}_stem.bam ${spe}_female.flower.bam ${spe}_Expanded.ovary.Fertilized.bam ${spe}_leaf.bam ${spe}_male.flower.bam ${spe}_tendril.bam ${spe}_root.bam ${spe}_Expanded.ovary.Unfertilized.bam ${spe}_ovary.bam ${spe}_base.of.tendril.bam
samtools sort -@ 20 -m 2G ${spe}_10tissues.bam -o ${spe}_10tissues.sort.bam && rm  ${spe}_10tissues.bamstringtie -p 20 ${spe}_10tissues.sort.bam -o stringtie_outsed 's/StringTie/Cufflinks/g' stringtie_out > transcripts.gtf/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/util/gtf_genome_to_cdna_fasta.pl stringtie_out $ref > transcripts.fasta
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/util/gtf_to_alignment_gff3.pl stringtie_out > transcripts.gff3
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/TransDecoder.LongOrfs -t transcripts.fasta -m 100#makeblastdb -in uniprot_sprot_plants.fa -dbtype prot
blastp -query transcripts.fasta.transdecoder_dir/longest_orfs.pep -db uniprot_sprot_plants.fa -max_target_seqs 1 -outfmt 6 -evalue 1e-5 -num_threads 20 > blastp.outfmt6hmmsearch --cpu 18 -o ttt --domtblout hmmsearch.tmp Pfam-A.hmm transcripts.fasta.transdecoder_dir/longest_orfs.pep
awk 'BEGIN{OFS=FS=" "} NR<=3{print}; NR>3{tmp=$1; $1=$4; $4=tmp; tmp=$2; $2=$5; $5=tmp; print}' hmmsearch.tmp > pfam.domtblout/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/TransDecoder.Predict -t transcripts.fasta --single_best_only --retain_pfam_hits pfam.domtblout --retain_blastp_hits blastp.outfmt6/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/util/cdna_alignment_orf_to_genome_orf.pl transcripts.fasta.transdecoder.gff3 transcripts.gff3 transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3

其次,作者也提供了进化树的图形绘制。


文章简要概述

注:简要概述来自植物学类各大微信公众平台(作者或运营者等已经总结很详细了),主要来自公众号:百迈客生物、植物科学最前沿。

本文由新疆农业科学院园艺作物研究所牵头,中国农业科学院深圳农业基因组研究所、作物科学研究所、生物技术研究所等团队合作完成。该研究绘制了11个野生和栽培番茄的染色体级别高质量基因组图谱,阐明了茄属番茄组(Solanum section Lycopersion)的基因组演化历史,构建了首个番茄超级泛基因组/图基因组,并进一步在野生番茄中克隆到可大幅提升栽培番茄产量的新基因一个。该研究既是对番茄基因组资源的重要补充,同时也对其它作物基因组学研究和野生种质资源尤其是近缘野生种的利用具有重要启发意义。该成果也是新疆农业科学院首次以第一单位在Nature Genetics上发表长篇研究论文。
研究团队收集了8个野生番茄种(Solanum habrochaites多毛番茄, Solanum chilense智利番茄, Solanum peruvianum秘鲁番茄, Solanum corneliomulleri多腺番茄, Solanum neorickii小花番茄, Solanum chmielewskii克梅留斯基番茄, S. pimpinellifolium醋栗番茄和Solanum galapagense加拉帕戈斯番茄)、1个番茄近源野生种(Solanum lycopersicoides类番茄茄)和2个栽培番茄代表性品种,利用PacBio、Bionano和Hi-C测序技术,构建了11个染色体水平高质量基因组,解析了其基因组构成。结合已发表数据,重构了野生和栽培番茄的系统发生关系,将其明确划分为4个单系起源分支,并发现红果和绿果番茄在约173万年前分化。这些结果阐明了野生和栽培番茄的基因组演化历史(图1)。

图1. 野生和栽培番茄的基因组构成和系统发育关系

先前研究构建的番茄泛基因组仅包含栽培番茄及其近源野生物种的遗传多样性信息。该研究首次通过整合10个番茄野生物种和1个番茄栽培物种,将泛基因组扩展为“超级泛基因组”(Super-pangenome)。其囊括了几乎整个茄属番茄组的遗传多样性,挖掘出已报道番茄泛基因组中缺少的9,320个新基因。比较基因组学分析鉴定出超过4,000万个SNP和InDel变异及28万个结构变异,其中约18万个结构变异为该超级泛基因组中所特有。此外,该研究构建了野生和栽培番茄的大片段倒位图谱,为如何在回交育种中避免连锁累赘提供了基因组学基础。上述结果极大拓展了番茄育种中可用的遗传变异和基因资源(图2)。

图2. 番茄超级泛基因组和结构变异全景图

番茄育种的主要目标之一是通过培育果实更大、分枝数更多的品种来提高产量。野生番茄通常比栽培番茄具有更多的结果分枝,然而能否将这一性状导入栽培番茄,特别是加工番茄中尚未有报道。通过比较进化基因组学分析,该研究鉴定出388个在野生和栽培番茄演化过程中高度分化的结构变异,可能显著影响周围基因的功能。其中位于Sgal12g015720基因(编码细胞色素P450超家族蛋白)第一个外显子的一个244-bp缺失变异引起了研究人员的关注。该变异在野生番茄和栽培番茄中频率差异最显著(p=2.2×10-16),且在栽培番茄中无法检测到Sgal12g015720转录本(图3)。以上结果说明番茄在驯化过程中保留了该244-bp缺失,使Sgal12g015720发生假基因化而在栽培番茄基因组中丢失。

图3. 结构变异在野生番茄和栽培番茄中的分化

转基因实验证明,Sgal12g015720能够显著增加栽培番茄的分枝和果实数量(~67.1%)(图4),栽培番茄“M82”/野生番茄“LA716”渐渗系植株IL12-2和IL12-3(含有Sgal12g015720基因组片段)同样支持转基因实验结果。因此,Sgal12g015720基因可能在番茄育种中株型调控和产量提高上发挥重要作用。

图4. 野生番茄特有的一个细胞色素P450基因提高栽培番茄产量

综上,该研究利用番茄超级泛基因组揭示了野生和栽培番茄的基因组演化历史,系统解析了番茄野生种中尚未被充分挖掘的遗传多样性。该研究同时证明了通过基因组学的“bottom-up”方法鉴定功能基因的可能,为超级泛基因组在其他作物中的构建和应用指明了方向。值得一提的是,Nature Genetics同期刊发了题为Tomato super-pangenome highlights the potential use of wild relatives in tomato breeding的ResearchBriefing(研究简报),对该成果进行了简介并给予高度评价。Nature Genetics编辑Wei Li博士认为:“看到基于9个野生种和2个栽培种质的染色体级别基因组构建的番茄超级泛基因组是令人兴奋的事情!这些结果凸显了野生和栽培番茄之间的基因组多样性和结构变异,这将有助于未来番茄功能基因的挖掘和番茄遗传改良”。

在后面的教程中,希望自己可以继续坚持下来,借助这篇文章开始这个领域的学习。


往期文章:
1. 最全WGCNA教程(替换数据即可出全部结果与图形)

WGCNA分析 | 全流程分析代码 | 代码一

WGCNA分析 | 全流程分析代码 | 代码二

WGCNA分析 | 全流程代码分享 | 代码三

2. 精美图形绘制教程

精美图形绘制教程

小杜的生信筆記,主要发表或收录生物信息学的教程,以及基于R的分析和可视化(包括数据分析,图形绘制等);分享感兴趣的文献和学习资料!!

Nature Genetic | 番茄超级泛基因组的多样性和结构变异相关推荐

  1. Nature Genetics | 我国学者首次构建番茄超级泛基因组,为近缘野生种质资源在作物育种中的应用提供了新思路...

    2023年4月6日,Nature Genetics<自然·遗传学>发表了由新疆农业科学院园艺作物研究所牵头,中国农业科学院深圳农业基因组研究所.作物科学研究所.生物技术研究所等团队合作完成 ...

  2. 基于全基因组测序数据鉴定结构变异的四大类方法总结

    不同类型的基因组变异示意图(图片来源:labspaces) 上次给大家总结介绍了基因组单核苷酸多态性(single nucleotide polymorphism,SNP)的鉴定方法,今天给大家介绍结 ...

  3. Nature -- 人类首个 “泛基因组”旨在编目人类遗传多样性

    在人类基因组项目发布第一个人类基因组草图的20多年后,研究人员发布了人类"泛基因组"草图--这预示着一种新的参考基因组的出现,它能捕获到更多的人类遗传多样性信息. 泛基因组变异图由 ...

  4. 中国人泛基因组发了 Nature,基因组重测序的CNS值得拥有

    33333福利公告:前 10期<临床基因组/外显组数据分析实战>线上/线下课程已圆满结束.现于2023年6月30~7月1日,在北京安排第十一期课程. 线上课是通过腾讯会议实时直播线下课,实 ...

  5. 遗传:细菌、真菌和动植物的泛基因组研究进展

    泛基因组:高质量参考基因组的新标准 边培培,张禹,姜雨 西北农林科技大学动物科技学院,杨凌 712100 摘要: 随着三代测序组装的高质量参考基因组的陆续发布,以及大规模重测序和群体遗传学分析的广泛进 ...

  6. Nat. Microbiol. | 功能选择揭示大肠杆菌泛基因组中未被发现的抗噬菌体防御系统...

    点击蓝字·关注我们 编辑:王凌琴    校对:林丽敏.朱琪 论文ID 原名:A functional selection reveals previously undetected anti-phag ...

  7. Microbiome|宏泛基因组揭示海洋细菌SAR324代谢潜力的依赖变化

    美国夏威夷大学(University of Hawaii)Daniel K. Inouye微生物海洋学中心Dominique Boeuf.Edward F. DeLong等人于2021年08月13日在 ...

  8. Nature子刊|“二代+三代”宏基因组学揭示肠道微生物群的个性化结构变异

    2022年,<Nature communications>期刊发表的"Short- and long-read metagenomics expand individualize ...

  9. 三维基因组染色质环(loop)结构

     三维基因组染色质环(loop)结构与调控因子紧密关联,直接对基因表达进行调控. 有研究表明,非编码区域的突变往往会导致loop结构的破坏,从而导致原癌基因被激活. 目前,loop结构的识别只能通过高 ...

最新文章

  1. 2012传统行业转型年:整合拓展互联网发展渠道
  2. 数字签名时间戳服务器的原理 !
  3. ABAP RTTC动态编程在SAP gateway中的应用
  4. Android RIL源码研究笔记 の ril (一)
  5. 36岁程序员感慨:天天加班压力太大,有200万存款能转行了吗?
  6. 法拍房数量激增数百倍!来看看这里面的数据...
  7. 因情制宜,建立“适当”的索引
  8. phoenixframework自动化测试平台webUI代码示例
  9. [不好分类]《凤凰项目》读后感
  10. diskpart 删除磁盘OEM分区 及设置活动分区
  11. 3D NAND“大连造”
  12. oracle 倒库详细步骤,详细的“倒车入库”步骤来了!一图一解析,照着做考试轻松一把过...
  13. Java随笔记录第五章:类设计基础
  14. 信息摘要技术 - SHA系列
  15. Golang入门笔记(14)—— 错误处理
  16. c语言二级字符指针运用(字符串)
  17. 关于支付宝CertificateException: X.509 not found的那些事~づ♡ど,JDK同样的版本之间也会有问题!
  18. 关于JS下offsetLeft,style.left,以及jquery中的offset().left,css(left)的区别。
  19. 无法软关机(关机变重启或关机不切断电源而显示:您可以安全关机)解决方法+ACPI精解...
  20. Max-Product Loopy Belief Propagation

热门文章

  1. idea中使用快捷键快速实现接口中的default方法
  2. HardLock 加密狗模拟解密硬复制HardLock
  3. 云之梦php免费教学视频下载_云知梦php基础+php进阶+mysql+linux+laravel全栈工程师【百度网盘】...
  4. 在 VMware 14 中安装 win10 虚拟机
  5. 2022~2023计算机毕业设计之题目选题
  6. 义乌个体户注册流程有哪些
  7. 优秀网站看前端 —— 小米Note介绍页面
  8. 2022北京最新建筑八大员(质量员)机考真题题库及答案解析
  9. 视觉算法需要哪些知识,视觉算法和图像算法
  10. 全国计算机考试官网卡,全国计算机等级考试报名卡.doc