2022年三月底,《科学》杂志连发6篇封面文章,宣布人类完整基因组测序计划正式完成。这项跨越3年的研究成果,填补了20年前测序结果留下的空白,是人类基因组研究的一个重大里程碑。这次的完整测序和分析,是114位科学家共同完成的。这些科学家来自不同国家的33个科研机构,他们也被称为“端粒到端粒联盟”(Telemere-to-Telomere Consortium, T2T)。

填补8%的空白并确定重复区域

对人类基因组的研究,已经有50多年的历史。其中最有名的研究项目,是1990年启动的“人类基因组计划”。2003年4月14日,多国实验室耗费10多年的时间和30亿美元的资金,完成了人类基因组计划的测序工作,首次绘制出了人类基因组的图谱。当时的测序工作,大大推动了基因组学的研究,增加了我们对人体和疾病的理解。

但是,当时人类基因组计划得出的序列中,仍然留下了大约8%的空白,其中包含了很多高度重复的DNA序列,加起来有一条染色体那么长。

人类的1至22号染色体 | Andreas Bolzer et al.

这8%的缺失,源于20年前测序技术的限制。当时使用的测序方法是“短读长测序”技术(“short-read" technology),一次只能读取很短的一段基因序列。打个比方,如果把基因组的一部分想象成段落中的一句话,比如“今天早上小明吃了个包子”,通过短读长测序,研究者能得到很多简短的小部件,比如“今天”、“小明”、“明吃”、“包子”;再经过“拼图”式的分析,他们就可以拼凑出这句完整的话。

然而,研究者虽然能知道这段基因里含有的简短小序列,却无法知道这段基因被重复了多少次。也就是说,研究者能够拼凑出“今天早上小明吃了个包子”这句话,但却不知道这句话在整个段落里是否重复出现、重复了多少次。正因缺少这些信息,在过去的20年里,重复序列一直是基因组学研究的一大难题。

直到两种新技术诞生,人类基因组学的研究才迎来了转折点。这两种技术都属于“长读长测序”技术(“long-read" technology),一种是牛津纳米孔测序(Oxford Nanopore DNA sequencing),它可以一次读取多达100万个DNA碱基,准确度中等;另一种是PacBio HiFi测序,一次只能读取2万个碱基,但准确度近乎完美。这两种技术,都可以一次性测出大块的DNA序列,研究者可以直接看到一整个句子甚至段落,也就能知道某个序列连续重复了多少次。

T2T联盟的联合主席凯伦·米加(Karen Miga)和亚当·菲利比(Adam Phillippy)| T2T Consortium

从2019年初开始,T2T联盟的科学家将这两种新技术结合起来,致力于攻克这些重复序列,填补缺失的空白。2020年底,他们公布了阶段性成果——X染色体和8号染色体的完整组装。经过之后2年的努力,现在,他们终于揭开了真正完整的人类基因组序列,从端粒到端粒,包含了每一条染色体。

我们可以看到全部的基因遗产 

2001年,人类基因组计划公布的参考基因组被称为GRCh38,之后又在不断地被完善和修改;这一次,T2T联盟公布的新参考基因组叫做T2T-CHM13,是GRCh38的升级版。新增加的DNA序列总计近2亿个碱基对,不仅填补了之前空缺的5个染色体短臂,还揭晓了基因组中最复杂的区域——在端粒和着丝粒周围的高度重复的DNA序列。

用HiFi测序测出的CHM13基因组的示意图 | 参考文献[1]

这次完整测序,还纠正了以前的很多错误,比如一些之前没能被检测到的片段重复。这些长链重复DNA曾被认为是基因组里的“垃圾区”,没有什么实际的作用。但是,近年来,越来越多的研究都表明,这些重复序列对人类的进化和疾病可能是非常重要的。这一次,科学家们找到了基因组的最后一块拼图,终于拼凑出了打开宝箱的钥匙,接下来就可以研究其中尚未为人所知的宝藏了。

参与此次研究的其中一个实验组,来自美国加州大学圣克鲁斯基因组学研究所。研究所所长大卫·豪斯勒(David Haussler)说:“现在我们可以站在山顶,俯瞰下面的所有景色,看到我们人类全部的基因遗产。

完整基因组数据已经在NCBI和GitHub上公开 | NCBI

下一步,研究者们将会重点关注从前难以研究的重要区域,比如着丝粒。这次新增加的基因组序列,90%都来自着丝粒。着丝粒对基因信息的遗传极为重要,在减数分裂中,成对染色体就是从着丝粒开始分裂的。科学家认为,很多与疾病相关的基因变异,就藏在着丝粒的长段重复DNA之中。

科学家们还将尝试测序出更多的完整基因组。T2T会和人类泛基因组参考联盟(Human Pangenome Reference Consortium)合作,计划测出350个人的完整基因组序列,创建一个“人类泛基因组参考”,从基因组的角度来呈现和解读人类种群的多样性。

T2T 联盟的联合主席亚当·菲利比(Adam Phillippy)认为,完整基因组的测序和分析,对每个人都有好处。在不久的将来,对一个人的完整基因组测序会变得更便宜、更简单,研究者和医护人员也能从中识别出所有的基因变体,找到与疾病有关的部分,从而为人们的医疗与生活提供建议。

参考资料:

https://www.science.org/toc/science/376/6588

人类完整基因组测序意味着什么相关推荐

  1. Science封面6连发:人类最完整的基因组测序完成!

    全世界科学家近40年的努力,今天终于圆满了! Science连发6篇封面文章,宣布人类完整基因组测序计划正式完成. 据路透社.Science等报道,这项成果填补了前人几十年努力后仍然存在的空白,为全球 ...

  2. 关于人类参考基因组及注释文件,一篇就够了

    最近随着课题进展拿到二代测序数据,想要在学校通过VPN连接之前工作单位时的服务器传输数据进行生信分析,传输成功的可能性几乎为零,借着这个原由,也下了决心开始启用现在实验室给我分配的的服务器账号,意味着 ...

  3. 7分钟分析人类全基因组,他们刷新全球纪录,此前最快也要24小时

    金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 7分钟,这是来自中国的一支团队"合力出成绩".一举打破的世界纪录: 全球首次将人类全基因组分析,推进分钟级时代. 这支团 ...

  4. 为什么 Illumina 最新测序仪能将全基因组测序价格降至 1000 美元?

    为什么 Illumina 最新测序仪能将全基因组测序价格降至 1000 美元? via Illumina 最新的 HiSeq X Ten 让 1,000 美元一次的 DNA 测序成为现实 下面那篇文章 ...

  5. 内蒙古农大孙志宏教授证实超深度混合宏基因组测序能够对人类肠道微生物组中的低丰度物种进行基因组和功能表征...

    导读 人类肠道微生物群中已经发现了大量微生物基因组,但由于目前大多数研究中使用的测序深度相对较浅,在个体水平上了解低丰度物种的作用仍具有挑战.为了提高基因组的组装性能,本研究采用了Illumina H ...

  6. 从零开始完整学习全基因组测序数据分析:第1节 测序技术

    欢迎订阅我们的微信公众号:基因学苑 本文转载自微信公众号解螺旋矿工,作者为黄树嘉,已获得授权.黄树嘉写了WGS系列的文章,堪称教材级别的生物信息学习材料.我们将陆续转载给大家.大家也可以关注公众号解螺 ...

  7. Nature:基于宏基因组测序构建人类肠道微生物组参考基因集

    文章目录 基于宏基因组测序构建人类肠道微生物组参考基因集 文章影响 作者简介 热心肠日报 摘要 正文 宏基因组测序肠道微生物组 图1. 人类肠道微生物组的覆盖度 人类肠道微生物组的基因集 图2. 预测 ...

  8. 高分文章精选 | 纳米孔宏基因组测序的表现

    在宏基因组测序中,纳米孔长读长可从复杂多样的宏基因组学样本中组装完整的闭环细菌基因组和质粒,提供无偏倚.免PCR扩增的基因组序列.已有越来越多的科学家使用纳米孔长读长来区分近缘物种,解析具有挑战性的重 ...

  9. 学习全基因组测序数据分析1:测序技术

    本文转载自微信公众号解螺旋的矿工,作者为黄树嘉,已获得授权.黄树嘉写了WGS系列的文章,堪称教科书级别的生物信息学习材料.虽然本平台只关注宏基因组领域,但此系列文章知识体系完善.干货满满,是值得每位专 ...

最新文章

  1. Pythonic版冒泡排序和快速排序(附:直接插入排序)
  2. 二叉树的遍历算法(三级)
  3. 第2课:关闭被黑客扫描的端口
  4. Mysql 性能优化20个原则(2)
  5. android 方法统计,Android 利用编译时 注入 统计App内所有方法执行时常,分析ANR
  6. numpy.linspace()的使用方法
  7. C++ 类对象和 指针的区别
  8. 计算机容量单位换算题,计算机储存容量计算单位换算
  9. Linux性能测试工具之Disk(四)
  10. Nginx-rrd监控
  11. QT教程 休闲棋牌游戏开发(2)
  12. 1.7.10服务器物品编辑器,我的世界背包编辑器1.7.10
  13. 2020.11.09-2020.11.15工作周报
  14. 最好用的股市技术指标
  15. GCC-PHAT算法
  16. 智能制造案例分享系列之海尔互联工厂
  17. 说说我的专业计算机作文,电脑让我欢喜让我忧作文600字
  18. Eclipse解决输入简体中文汉字出现繁体字的问题和Eclipse中Ctrl+Shift+F整理代码格式的无效问题
  19. 芋道 Spring Boot 消除冗余代码 Lombok 入门
  20. python统计一篇英文短文中单词出现的频率、内存使用分析

热门文章

  1. Dynamic Key-Value Memory Networks for Knowledge Tracing
  2. 两个狮子和老鼠的小故事
  3. K8S集群问题解决记录二
  4. oracle 日期常用函數sysdate
  5. jquery uploadify在谷歌浏和火狐下无法上传的解决方案(.Net版)
  6. 仿微信 java IM即时通讯 | uni-app IM即时通讯 | vue IM即时通讯桌面端 | 源码出售
  7. mx播放器有没有投屏功能_手机投屏电视怎么设置呢?图文讲解手机投屏设置步骤...
  8. Android Studio降低compileSdkVersion的SDK版本
  9. 卸载驱动模块:已经在/lib目录下建立相应文件夹仍无法实现
  10. 湛江市电子口岸集成项目灾备