文献阅读---普通狗牙根阳江基因组单倍型解析与基因组稳定性和匍匐性研究

普通狗牙根阳江基因组单倍型解析与基因组稳定性和匍匐性研究

1、测序材料（普通狗牙根）
2、测序策略和分析方法
- 2.1 Illumina测序 & 测序数据基因组大小和杂合度分析 & 流式细胞仪估算基因组大小
- 2.2 Pacbio测序 & 基因组初步组装（contig level）
- 2.3 Bionano测序 & Bionano应用
- 2.4 Hi-C测序 & Hi-C应用
- 2.5 蛋白编码基因和重复序列注释
- 2.6 非编码RNA基因预测 & 基因家族分析 & WGD分析
3. 研究结果
4. 总结

1、测序材料（普通狗牙根）

本研究选择的测序品种为扬州大学种植的普通狗牙根（阳江狗牙根），该品种是2007年由江苏中科院植物所选育的国审品种。

（1）阳江狗牙根生物学特性
阳江狗牙根具非常发达的匍匐茎和根状茎，草层自然高度为10.0cm左右, 匍匐茎棕褐色，节间长度为1.9-2.5cm，节间直径为0.07-0.09cm，叶片线型，叶长为2.8-3.5cm，叶宽为0.18-0.22cm，叶深绿色，穗状花序3-5枚呈指状簇生于杆顶部，高度为9.0-12.0cm，花序长度为2.3-2.8cm，小穗长度为0.19-0.22cm，柱头浅紫色，6-7月为开花高峰期，9-10月亦有少量花序开放。成坪迅速，匍匐性强，密度高，草层厚，耐践踏性强，耐重度盐碱，无明显病虫害，与杂草竞争能力强，采用营养繁殖（匍匐茎、地下茎、直立茎）方式繁殖。目前，已经在长江中下游地区以及我国东部盐碱地绿化、运动草坪、保土草坪建植中成功得到规模化应用，已初步应用于热带珊瑚岛的生态建设。

（2）关中狗牙根
此外，2017年该单位也选育了关中狗牙根（商品名：多面手狗牙根）。该品种叶色深绿，密度较高，草层厚实，花序少，地下茎和根系发达，成坪迅速，抗寒性强，绿期长，耐盐耐旱性强，耐瘠薄，养护要求低，适用京津冀及以南地区的运动草坪、盐土草坪以及保土草坪建植。

2、测序策略和分析方法

2.1 Illumina测序 & 测序数据基因组大小和杂合度分析 & 流式细胞仪估算基因组大小

（1）Illumina测序
Illumina测序使用的材料是叶片冻样，使用DNA试剂盒提取后跑胶鉴定质量。然后，使用提取的DNA制备插入片段文库（270 bp & 500 bp ），测评平台是HiSeq X Ten。测序得到的原始数据需要剔除接头序列和低质量序列，使用的软件是SOAPnuke v2.1.6，随后得到高质量测序数据161.1 Gb。

（2）测序数据基因组大小和杂合度分析
使用测序的161.1Gb的数据可以进行基因组大小和杂合度评估，使用的软件和步骤是：首先使用Jellyfish v2.3.0 统计Kmer分布，得到Kmer peak值，然后将Kmer peak值作为参数放入GenomeScope v2.0进而估算基因组大小和基因组杂合度。

（3）流式细胞仪估算基因组大小
流式细胞术（flow cytometry）被使用估算基因组大小，其中水稻品种93-11被用作基因组大小内参标准（internal standard， 430Mb）。使用FACSCanto™ II 流式细胞仪（BD Biosciences）分析样品，使用 BD Spectrum Viewer 分析结果。

2.2 Pacbio测序 & 基因组初步组装（contig level）

（1）Pacbio RSII测序（hifi reads？）
通过分离系统选择高分子量DNA样品（high-molecular weight，HMW），构建8个20kb的测序文库（SMRTbell Template Prep Kit）。在PacBio RSII 平台（Pacific Biosciences）测序，

（2）初步组装
使用 Hifiasm v0.124 将Pacbio的151.99 Gb的数据组装而成contig level，并由 Racon v1.4.35纠错。使用 Bwa-mem v2.2.16 将 Illumina 测序读数与组装的contig比对，基于比对结果，再使用 Pilon v1.247校正初步组装序列（contig level）。

2.3 Bionano测序 & Bionano应用

（1）Bionano成像
从新鲜叶片中提取HMW DNA，DNA 被单链切口核酸内切酶 Nt.BspQI 消化，荧光标记，加载到 Saphyr Chip® 中，并在 Saphyr 光学基因组图谱仪 (Bionano Genomics) 上成像。

（2）Bionano应用
对得到395.4Gb的Bionano数据进行过滤，标准是长度不小于100bp且标签数目不小于6，得到954个光学图谱。为辅助组装，将PacBio组装的contig序列转化为计算机 BspQI 消化的参考基因组图谱，与光学基因组图谱进行比较。使用 Bionano Solve™ v3.6.1.8 比对和合并上面两部分数据，将基因组图谱进一步转化为框架序列（scaffold level）。

2.4 Hi-C测序 & Hi-C应用

（1）Hi-C测序
使用甲醛固定新鲜叶片中DNA的3D结构，提取基因组 DNA 并用限制性内切酶 MboI 消化。消化后在末端被生物素标记并随机连接。然后将DNA 剪切成 300-600 bp 长度的片段，修复平端，并使用链霉亲和素下拉纯化。

（2）Hi-C应用
纯化后的DNA序列进行Illumina HiSeq X Ten测序，生成231.38 Gb数据。使用 Juicer v1.69 将配对末端读数映射到比对到框架序列（scaffold），以区分有效和无效的相互作用对。获得的 1.85 亿个有效相互作用对（55.5 Gb 数据）进一步用于调整scaffold中序列的相对位置，最后使用 3D-DNA 将框架序聚类成假染色体（pseudo-chromosomes）。

2.5 蛋白编码基因和重复序列注释

（1）蛋白编码基因注释
结合同源比对预测、从头算预测和转录组辅助预测方法来鉴定蛋白质编码基因。

同源比对预测选择5个物种（水稻，二穗短柄草，玉米，高粱和复活草/还魂草）：

O. sativa、
Brachypodium distachyon、
Zea mays、
Sorghum bicolor 、
Oropetium thomaeum

使用scaffold序列对上面5个物种的蛋白编码序列进行blast搜索，通过GeneWise鉴定基因结构。

从头预测选择5个软件（均为默认参数）：

Augustus v3.4.0、
geneid v1.4.4、
FgeneSH、
GlimmerHMM v3.0.4、
Genscan

转录组辅助预测使用Pacbio混样测序和下载的6个组织器官的RNA-seq数据：
使用GMAP将Pacbio数据与组装的基因组比对，并使用 PASA 对基因结构进行建模。
下载Illumina转录组测序数据为使用 TopHat v2.1.128 比对，并使用 Cufflinks v2.2.129 对基因结构进行建模。

最后，将上面三种预测策略的结果合并去冗余，使用的软件是EVidenceModeler v1.1.130（EVM），功能注释是通过使用 eggNOG-mapper v232 对 eggNOG v5.0 数据库进行直系分配获得。分别对GO和KEGG数据库进行比对，使用KOBAS对KEGG进行富集分析。结合 PlantTFDB 数据库，使用 iTAK 注释转录因子。

（2）重复序列注释
预测采用两种策略：已知数据库搜索的同源预测和从头预测。
同源预测使用RepeatMasker v4.0.912对Repbase进行搜索，从头预测使用5个软：

RepeatModeler、
PILER、
RepeatScout、
LTR_Finder、
Tandem Repeats Finder

使用具有默认参数的 LTR_retriever v2.9.018计算LAI评估基因组质量。
使用具有搜索参数1 1 2 80 5 200 2000 -d –h的Tandem Repeats Finder 专门识别推定的着丝粒重复阵列，并用MEGA构建系统发育树，用来区分亚基因组。

根据转座子的命名系统手动检查和分类识别的重复序列。使用公式 T = k/2r 计算不同家族的长末端重复反转录转座子 (LTR-RTs) 的插入时间，其中 k 是完整 LTR-RTs 的 5’ LTR 和 3’ LTR 之间的发散距离和 r 是碱基替代率（草类为 1.38 × 10-8 替代/地点/年）。

2.6 非编码RNA基因预测 & 基因家族分析 & WGD分析

（1）非编码RNA基因预测
tRNAscan-SE-2.0和Barrnap分别预测tRNA和rRNA，miRNA, snoRNA, and snRNA使用Infernal v1.1.4的Rfam进行预测。

（2）基因家族分析
基因家族分析选用下面的10个物种（Phytozome）

 A. thaliana, O. sativa, B. distachyon, Z. mays, S. bicolor, O. thomaeum, Panicum hallii, Setaria viridis, Hordeum vulgare,Tritcum urartu

使用OrthoFinder v2.5.4鉴定基因家族（all-against-all blast），MUSCLE 比对确定的 112 个单拷贝直系同源基因家族，使用 OrthoFinder 构建系统发育树，其中拟南芥作为外群。

PAML v4.9 用于估计 C. dactylon 的分化时间，使用 TimeTree 数据库中记录的其他 10 个物种的分化时间作为依据。

（3）WGD分析
先使用blastp搜索，然后使用MCScanX鉴定共线性区块（syntenic block，>= 50 gene PAML v4.9 计算同线基因对的每个位点的同义替换值 (Ks)，并绘制 Ks 值的分布以使用公式 T = Ks/2λ 推断物种形成或全基因组复制 (WGD) 事件的时间，其中 Ks 是峰值 Ks 值，λ 是平均替代率（草的 6.5 × 10-9 替代/地点/年）。

重组调节基因和分蘖角基因使用的是blastp同源比对。

3. 研究结果

Figure1，基因组概览

Table，注释基因和重复等信息统计

Figure2，基因家族分析和分化时间推断

Figure3，亚基因组共线性和表达模式

Figure4，调节重组基因的进化模式

Figure5，调节分蘖角基因的进化模式

4. 总结

（1）本研究对普通狗牙根的基因组进行测序和注释。组装后的基因组包含 36 条假染色体，包括 37.91% 的基因组大小的重复序列，并编码 76,879 个蛋白质编码基因。

（2）多倍体 C. dactylon 基因组由来自两轮 WGD 事件的四种单倍型组成。尽管鉴定了一些单倍型特异性基因和转座子，但在四种单倍型中未检测到全局亚基因组优势。

（3）成功确定了维持基因组稳定性的 ZMM 依赖性调节机制与分蘖角调节基因的协同进化。

个人感觉，这个文章值得学习，文章方法步骤详实。确实为普通狗牙根的研究奠定重要基础，开启狗牙根的基因组时代。当然，分子生物学研究还是相对滞后，有待发展。

参考：
https://www.frontiersin.org/articles/10.3389/fpls.2022.890980/full#h13