普通狗牙根阳江基因组单倍型解析与基因组稳定性和匍匐性研究

  • 1、测序材料(普通狗牙根)
  • 2、测序策略和分析方法
    • 2.1 Illumina测序 & 测序数据基因组大小和杂合度分析 & 流式细胞仪估算基因组大小
    • 2.2 Pacbio测序 & 基因组初步组装(contig level)
    • 2.3 Bionano测序 & Bionano应用
    • 2.4 Hi-C测序 & Hi-C应用
    • 2.5 蛋白编码基因和重复序列注释
    • 2.6 非编码RNA基因预测 & 基因家族分析 & WGD分析
  • 3. 研究结果
  • 4. 总结

1、测序材料(普通狗牙根)

本研究选择的测序品种为扬州大学种植的普通狗牙根(阳江狗牙根),该品种是2007年由江苏中科院植物所选育的国审品种。

(1)阳江狗牙根生物学特性
阳江狗牙根具非常发达的匍匐茎和根状茎,草层自然高度为10.0cm左右, 匍匐茎棕褐色,节间长度为1.9-2.5cm,节间直径为0.07-0.09cm,叶片线型,叶长为2.8-3.5cm,叶宽为0.18-0.22cm,叶深绿色,穗状花序3-5枚呈指状簇生于杆顶部,高度为9.0-12.0cm,花序长度为2.3-2.8cm,小穗长度为0.19-0.22cm,柱头浅紫色,6-7月为开花高峰期,9-10月亦有少量花序开放。成坪迅速,匍匐性强,密度高,草层厚,耐践踏性强,耐重度盐碱,无明显病虫害,与杂草竞争能力强,采用营养繁殖(匍匐茎、地下茎、直立茎)方式繁殖。目前,已经在长江中下游地区以及我国东部盐碱地绿化、运动草坪、保土草坪建植中成功得到规模化应用,已初步应用于热带珊瑚岛的生态建设。

(2)关中狗牙根
此外,2017年该单位也选育了关中狗牙根(商品名:多面手狗牙根)。该品种叶色深绿,密度较高,草层厚实,花序少,地下茎和根系发达,成坪迅速,抗寒性强,绿期长,耐盐耐旱性强,耐瘠薄,养护要求低,适用京津冀及以南地区的运动草坪、盐土草坪以及保土草坪建植。

2、测序策略和分析方法

2.1 Illumina测序 & 测序数据基因组大小和杂合度分析 & 流式细胞仪估算基因组大小

(1)Illumina测序
Illumina测序使用的材料是叶片冻样,使用DNA试剂盒提取后跑胶鉴定质量。然后,使用提取的DNA制备插入片段文库(270 bp & 500 bp ),测评平台是HiSeq X Ten。测序得到的原始数据需要剔除接头序列低质量序列,使用的软件是SOAPnuke v2.1.6,随后得到高质量测序数据161.1 Gb

(2) 测序数据基因组大小和杂合度分析
使用测序的161.1Gb的数据可以进行基因组大小和杂合度评估,使用的软件和步骤是:首先使用Jellyfish v2.3.0 统计Kmer分布,得到Kmer peak值,然后将Kmer peak值作为参数放入GenomeScope v2.0进而估算基因组大小基因组杂合度

(3)流式细胞仪估算基因组大小
流式细胞术(flow cytometry)被使用估算基因组大小,其中水稻品种93-11被用作基因组大小内参标准(internal standard, 430Mb)。使用FACSCanto™ II 流式细胞仪(BD Biosciences)分析样品,使用 BD Spectrum Viewer 分析结果。

2.2 Pacbio测序 & 基因组初步组装(contig level)

(1)Pacbio RSII测序(hifi reads?
通过分离系统选择高分子量DNA样品(high-molecular weight,HMW),构建8个20kb的测序文库(SMRTbell Template Prep Kit)。在PacBio RSII 平台(Pacific Biosciences)测序,

(2)初步组装
使用 Hifiasm v0.124 将Pacbio的151.99 Gb的数据组装而成contig level,并由 Racon v1.4.35纠错。 使用 Bwa-mem v2.2.16 将 Illumina 测序读数与组装的contig比对,基于比对结果,再使用 Pilon v1.247校正初步组装序列(contig level)。

2.3 Bionano测序 & Bionano应用

(1)Bionano成像
从新鲜叶片中提取HMW DNA,DNA 被单链切口核酸内切酶 Nt.BspQI 消化,荧光标记,加载到 Saphyr Chip® 中,并在 Saphyr 光学基因组图谱仪 (Bionano Genomics) 上成像。

(2)Bionano应用
对得到395.4Gb的Bionano数据进行过滤,标准是长度不小于100bp且标签数目不小于6,得到954个光学图谱。为辅助组装,将PacBio组装的contig序列转化为计算机 BspQI 消化的参考基因组图谱,与光学基因组图谱进行比较。 使用 Bionano Solve™ v3.6.1.8 比对和合并上面两部分数据,将基因组图谱进一步转化为框架序列(scaffold level)。

2.4 Hi-C测序 & Hi-C应用

(1)Hi-C测序
使用甲醛固定新鲜叶片中DNA的3D结构,提取基因组 DNA 并用限制性内切酶 MboI 消化。 消化后在末端被生物素标记并随机连接。然后将DNA 剪切成 300-600 bp 长度的片段,修复平端,并使用链霉亲和素下拉纯化。

(2)Hi-C应用
纯化后的DNA序列进行Illumina HiSeq X Ten测序,生成231.38 Gb数据。使用 Juicer v1.69 将配对末端读数映射到比对到框架序列(scaffold),以区分有效和无效的相互作用对。 获得的 1.85 亿个有效相互作用对(55.5 Gb 数据)进一步用于调整scaffold中序列的相对位置,最后使用 3D-DNA 将框架序聚类成假染色体(pseudo-chromosomes)。

2.5 蛋白编码基因和重复序列注释

(1)蛋白编码基因注释
结合同源比对预测、从头算预测和转录组辅助预测方法来鉴定蛋白质编码基因。

同源比对预测选择5个物种(水稻,二穗短柄草,玉米,高粱和复活草/还魂草):

O. sativa、
Brachypodium distachyon、
Zea mays、
Sorghum bicolor 、
Oropetium thomaeum

使用scaffold序列对上面5个物种的蛋白编码序列进行blast搜索,通过GeneWise鉴定基因结构。

从头预测选择5个软件(均为默认参数):

Augustus v3.4.0、
geneid v1.4.4、
FgeneSH、
GlimmerHMM v3.0.4、
Genscan

转录组辅助预测使用Pacbio混样测序和下载的6个组织器官的RNA-seq数据:
使用GMAP将Pacbio数据与组装的基因组比对,并使用 PASA 对基因结构进行建模。
下载Illumina转录组测序数据为使用 TopHat v2.1.128 比对,并使用 Cufflinks v2.2.129 对基因结构进行建模。

最后,将上面三种预测策略的结果合并去冗余,使用的软件是EVidenceModeler v1.1.130(EVM),功能注释是通过使用 eggNOG-mapper v232eggNOG v5.0 数据库进行直系分配获得。分别对GO和KEGG数据库进行比对,使用KOBAS对KEGG进行富集分析。结合 PlantTFDB 数据库,使用 iTAK 注释转录因子。

(2)重复序列注释
预测采用两种策略:已知数据库搜索的同源预测从头预测
同源预测使用RepeatMasker v4.0.912对Repbase进行搜索,从头预测使用5个软:

RepeatModeler、
PILER、
RepeatScout、
LTR_Finder、
Tandem Repeats Finder

使用具有默认参数的 LTR_retriever v2.9.018计算LAI评估基因组质量。
使用具有搜索参数1 1 2 80 5 200 2000 -d –hTandem Repeats Finder 专门识别推定的着丝粒重复阵列,并用MEGA构建系统发育树,用来区分亚基因组

根据转座子的命名系统手动检查和分类识别的重复序列。 使用公式 T = k/2r 计算不同家族的长末端重复反转录转座子 (LTR-RTs) 的插入时间,其中 k 是完整 LTR-RTs 的 5’ LTR 和 3’ LTR 之间的发散距离和 r 是碱基替代率(草类为 1.38 × 10-8 替代/地点/年)。

2.6 非编码RNA基因预测 & 基因家族分析 & WGD分析

(1)非编码RNA基因预测
tRNAscan-SE-2.0和Barrnap分别预测tRNA和rRNA,miRNA, snoRNA, and snRNA使用Infernal v1.1.4的Rfam进行预测。

(2)基因家族分析
基因家族分析选用下面的10个物种(Phytozome

 A. thaliana, O. sativa, B. distachyon, Z. mays, S. bicolor, O. thomaeum, Panicum hallii, Setaria viridis, Hordeum vulgare,Tritcum urartu

使用OrthoFinder v2.5.4鉴定基因家族(all-against-all blast),MUSCLE 比对确定的 112 个单拷贝直系同源基因家族,使用 OrthoFinder 构建系统发育树,其中拟南芥作为外群。

PAML v4.9 用于估计 C. dactylon 的分化时间,使用 TimeTree 数据库中记录的其他 10 个物种的分化时间作为依据。

(3)WGD分析
先使用blastp搜索,然后使用MCScanX鉴定共线性区块(syntenic block,>= 50 gene PAML v4.9 计算同线基因对的每个位点的同义替换值 (Ks),并绘制 Ks 值的分布以使用公式 T = Ks/2λ 推断物种形成或全基因组复制 (WGD) 事件的时间 ,其中 Ks 是峰值 Ks 值,λ 是平均替代率(草的 6.5 × 10-9 替代/地点/年)。

重组调节基因和分蘖角基因使用的是blastp同源比对。

3. 研究结果

Figure1,基因组概览

Table,注释基因和重复等信息统计

Figure2, 基因家族分析和分化时间推断

Figure3,亚基因组共线性和表达模式

Figure4,调节重组基因的进化模式

Figure5,调节分蘖角基因的进化模式

4. 总结

(1)本研究对普通狗牙根的基因组进行测序和注释。 组装后的基因组包含 36 条假染色体,包括 37.91% 的基因组大小的重复序列,并编码 76,879 个蛋白质编码基因。

(2)多倍体 C. dactylon 基因组由来自两轮 WGD 事件的四种单倍型组成。 尽管鉴定了一些单倍型特异性基因和转座子,但在四种单倍型中未检测到全局亚基因组优势

(3)成功确定了维持基因组稳定性的 ZMM 依赖性调节机制分蘖角调节基因的协同进化。

个人感觉,这个文章值得学习,文章方法步骤详实。确实为普通狗牙根的研究奠定重要基础,开启狗牙根的基因组时代。当然,分子生物学研究还是相对滞后,有待发展。

参考:
https://www.frontiersin.org/articles/10.3389/fpls.2022.890980/full#h13

文献阅读---普通狗牙根阳江基因组单倍型解析与基因组稳定性和匍匐性研究相关推荐

  1. 【文献阅读】基于深层语言模型的古汉语知识表示及自动断句研究

    概述:BERT+CRF/CNN实现古文知识表示和断句 2 古汉语自动断句模型 条件随机场是一种经典的序列标注模型,在中文分词.词性标注.命名实体识别等自然语言处理任务中均有着广泛应用 Zheng X, ...

  2. 文献阅读_基于多模态数据语义融合的旅游在线评论有用性识别研究

    文献来源:马超,李纲,陈思菁,毛进,张霁.基于多模态数据语义融合的旅游在线评论有用性识别研究[J].情报学报,2020,39(02):199-207. 基于多模态数据语义融合的旅游在线评论有用性识别研 ...

  3. 文献阅读:NAD+代谢相关基因在肌萎缩侧索硬化症中的预后研究

    欢迎关注"生信修炼手册"! 文章链接: https://www.frontiersin.org/articles/10.3389/fcell.2022.831273/full 文章 ...

  4. 凌恩客户文献|宏基因组binning解析中国浓味白酒窖泥微生物群落MAGs和代谢潜力

    近期,凌恩生物客户四川农业大学在<Food Research International>(IF=6.475)期刊发表题为"Metagenome and analysis of ...

  5. 文献阅读---玉米干旱响应和耐受性基因表达的调控变异定位

    文献阅读-玉米干旱响应和耐受性基因表达的调控变异定位 Mapping regulatory variants controlling gene expression in drought respon ...

  6. ProteinCell综述|解析宿主基因组和微生物的复杂互作(王军组作品,万字全文翻译)...

    本文转载自"热心肠先生",己获授权. 2018年5月,Protein & Cell 杂志特别为中国肠道大会推出了主题为"Microbiota and Human ...

  7. 【文献阅读】TBX6 Null Variants and a Common Hypomorphic Allele in Congenital Scoliosis

    [文献阅读]TBX6 Null Variants and a Common Hypomorphic Allele in Congenital Scoliosis (TBX6基因无效变异联合常见亚效等位 ...

  8. 文献阅读High-throughput sequencing of the transcriptome and chromatin accessibility in the same cell

    文献阅读汇报 High-throughput sequencing of the transcriptome and chromatin accessibility in the same cell ...

  9. 文献阅读-Pan-Cancer Analysis of lncRNA Regulation Supports Their Targeting of Cancer Genes in Each Tumor

    Pan-Cancer Analysis of lncRNA Regulation Supports Their Targeting of Cancer Genes in Each Tumor Cont ...

  10. 细胞亚器文献阅读二~An ER-Mitochondria Tethering Complex Revealed by a Synthetic Biology Screen

    细胞亚器文献阅读二~An ER-Mitochondria Tethering Complex Revealed by a Synthetic Biology Screen 通过合成生物学筛选ER和Mi ...

最新文章

  1. Science | 智能计算揭示前生命化学网络中合成的连接、出现和自我再生
  2. uni-app实现微信小程序本地图片转为base64
  3. Netbeans 中创建数据连接池和数据源步骤(及解决无法ping通问题)
  4. python静态方法和类方法的区别_python中类的静态方法和类的类方法
  5. java nio 缓冲区(一)
  6. 相机获取的照片向左自动旋转90度解决方法
  7. centos7安装samba文件服务器,Centos7.7部署文件共享服务Samba
  8. IntelliJ IDEA(三、各种工程的创建 -- 之二 -- 创建一个JavaWeb工程)
  9. 软件基本功:出错了就问别人,大哥你是不是开发人员?
  10. 百度硬盘和Google桌面的比较
  11. 1999年考研数学一解析pdf
  12. ssh远程连接虚拟机
  13. 计算机页面尺寸,网页页面尺寸一般设置多大才合适?
  14. Mac Yapi 内网安装保姆级步骤
  15. 基于FML的MinecraftMod制作学习笔记——开发环境的配置
  16. 批处理 b站视频批量合并
  17. 突破限制,这类网站的仅在线视频也能轻松能下载了!
  18. resure挽救笔记本系统和一些相关的操作记录
  19. Unity3D手游开发实践
  20. 原始数据都一样,为啥Pyecharts做出来的图一个是彩色的,另一个是黑白的?

热门文章

  1. C# 判定素数 高效算法 拉宾米勒算法
  2. Python制作个人动漫头像(简化版)
  3. 论文笔记(CPN):Cascaded Pyramid Network for Multi-Person Pose Estimation
  4. 关键点检测---CPN, Cascaded Pyramid Network for Multi-Person Pose Estimation
  5. Hadoop数字统计
  6. mysql概念模型中的3种基本联系_数据库建模三步骤:概念模型
  7. 北卡罗来纳州立大学计算机科学,NCSU的CS「北卡罗来纳州立大学罗利分校计算机科学系」...
  8. 《我想进大厂》之分布式锁夺命连环9问 | 大理版人在囧途
  9. pyinstaller打包py遇到的问题
  10. 用C++计算圆周长和面积