点击【医学方】  关注我们

今天为大家介绍今年4月份发表在Briefings in Bioinformatics(IF=8.99)的综述,作者对43个基因-疾病数据库和工具的来源、更新情况以及能否应用于临床研究进行了详细的探讨,有助于科研人员针对感兴趣的疾病选择正确的基因数据库,从而深化基因-疾病因果关系的研究。

一、基因与疾病

基因这个词汇的出现已经有100多年的历史。随着科技的进步,基因组领域发生了巨大的变革,尤其是在基因图谱、数据库、疾病图谱、CRISPR/Cas9、大数据和下一代测序等方面。医学的发展建立在疾病治疗和临床试验的基础上,而基因研究有助于为每个人量身定制治疗方案,帮助医生了解哪些人群有患糖尿病、高血压或癌症等重大疾病的风险。

绝大多数(~62%)的人类基因组由基因区间组成,过去将非编码基因称为垃圾DNA。而近几年的基因组研究解释了非编码基因的独特功能,说明每个基因都具有其重要性。遗传学的主要目标是了解哪些基因可能导致疾病,大多数情况是由于基因多态性,即错误的碱基位置改变基因功能,从而使蛋白质功能失常,最终导致疾病。第一个被完全鉴定的哺乳动物基因是编码球蛋白多肽血红蛋白基因(HBB),单基因缺陷使血红蛋白结构异常,最后导致镰状细胞性贫血。

人类疾病是基因组学、生物信息学、系统生物学和医学研究的核心。了解疾病之间的相互关系,对于认识疾病分类、病因和发病机理是十分重要的。世界上有许多数据库声称可以提供基因信息,并按相关疾病分类。作者对其中的43个数据库在疾病-基因相关研究中的应用进行了详细的探讨(如图1:43个数据库信息见https://academic.oup.com/view-large/203657246)。

二、遗传学史

1869年,瑞士生化学家Johann Miescher发现了DNA。而在Miescher的发现三年前,Gregor Mendel发表了豌豆育种实验的结果,将遗传性状定义为某些可能导致性状差异的细胞内物质。1909年Wilhelm Johannsen用基因这个词来描述遗传单位。从那时起,人们对基因的结构、定位、数量和功能的探索已经进行了一百多年。直到1944年Avery MacLeod McCarty提出,导致细胞转化的物质是DNA而不是蛋白质,阐明了基因的化学性质。随后欧文提出DNA碱基配对的概念, Watson and Crick提出 DNA双螺旋结构。Marshal Nirenberg将DNA遗传密码定义为20种氨基酸。与此同时,核蛋白一词被引入来定义遗传物质。

研究人员通过遗传研究和染色体标记发现了第一个与疾病相关的单基因(Huntington‘s disease gene,HTT),位于人类4号染色体上。1955年Joe Hin确认人体细胞有46条正常染色体后,Jerome Lejeune发现唐氏综合征由21染色体三拷贝引起。1985年,第8届人类基因组图谱会上讨论了人体的831个基因。人类基因组计划的目的是确定DNA序列,识别和绘制人类基因组图谱。经过世界各国科学家多年的努力,1995年第一个完全测序的流感嗜血杆菌基因组发表。六年后人类基因组发表,是遗传研究领域的一个里程碑。2003年HGSC完成了人类参考基因组,使破译基因组功能成为可能。

三、基因测序

DNA序列是破译遗传密码的关键。随着电泳技术的发展,早期使用Southern blotting技术来检测特定DNA片段。然而,电泳只能分离不同大小的DNA片段,无法进行测序。随后在Sanger测序法的基础上,发展出在DNA合成过程中加入双脱氧核苷酸(DNA末端),通过电泳进行测序的方法。Sanger测序被广泛应用40多年,并帮助科学家完成了人类基因组的第一个序列,但耗时耗力。硫酰化酶/荧光素酶系统进行的链终止反应实现了实时测序。1955年Arthur Kornberg分离出的DNA复制酶和DNA聚合酶是下一代测序(NGS)的一个重要里程碑。焦磷酸测序(光检测)步骤简单,耗时短,开创了高通量测序的新时代。

最新一代的测序技术降低了对DNA扩增的要求,使单分子测序(SMS)成为可能,避免了扩增相关的偏差。多年来,测序方案、分子生物学和自动化的创新提高了测序的能力,同时成本不断降低。随着全基因组测序(WGS)的不断发展和完善,以及大规模基因注释项目的启动,新的基因组序列数据不断应用的到医学研究中。随之而来的大量基因组数据,让海量数据向基因组功能或相关临床信息的转化成为了新的挑战。

随着各种基因测序数据的积累,许多公共数据库成立并沿用至今。Margaret Dayhoff开发了第一个生物信息学软件COMPROTEIN,利用Edman测序数据确定蛋白质的一级结构,然后创建了第一个蛋白质数据库 (PDB)。Roger Staden于1979年发表了第一个专门用于分析Sanger测序数据的软件。随着2003年人类基因组计划的完成,这些基因数据库的基础数据源终于建立起来。第二代测序以及相关分析工具的出现,标志着生物大数据分析时代的到来。

四、基因到疾病数据库和工具

大数据分析的一个关键挑战是对NGS数据的分析,即如何识别出疾病相关的候选基因。癌症基因组的变异数量可能非常高,但只有少数基因变异对肿瘤的发展是至关重要的。随着遗传变异与疾病的联系的发现,基于个体基因组变异的疾病风险预测和个性化医疗的精准治疗已成为一个大趋势。

目前已有大量的数据库提供有关基因、疾病、变异、蛋白质和通路的信息。最早的基因和表型数据库是1966年建立OMIM和1982年建立的GenBank。2014年Nucleic Acids Research报道网上公开的数据库共有1552个。随着生物数据库数量的不断增加,用户必须从一个数据库导航到另一个数据库,使得基因分析既费时又低效。作者筛选了43个基因疾病数据库和9个工具,评估了它们进行基因搜索的简洁和易用性,以方便研究人员的研究分析(图3,蓝色表示是,红色表示否)

五、ClinVar数据库

ClinVar数据库包括任何种系和体细胞变异大小、类型和基因组位置信息。数据由临床检测实验室、研究实验室、locus-specific数据库、OMIM、GeneReviewsTM和UniProt提交。ClinVar允许用户输入一个基因名称,例如BRCA1,并将检索到所有相关的变异和条件的名字,以及它们的状态。结果主要来自三个方面:临床试验、研究和文献。由于缺少足够的方法来衡量临床试验结果的准确性,一些信息可能是不明确的。

六、CNVD 数据库

CNVD是关于拷贝数变异及相关疾病的系统、全面的数据库,所有数据均提取自CNV相关文章的实验数据,是研究疾病相关拷贝数变化的可靠资源。它收录了251697条记录,包含183219个CNV片段,844种相关疾病和46348个基因,CNV分析可用于全基因组及关联性状分析。CNVD允许用户以多种方式搜索数据库:根据基因名称、疾病名称、染色体位置或拷贝数变异区域。在查询结果中,包含物种、染色体、CNV的起始和结束位点、相关疾病、CNV区域基因和源文章PubMed ID等信息。但是,它并不对冗余的数据进行分组,这意味着即便是不同的来源也会产生同样的结果。

七、Disease Ontology数据库

DO与GO数据库类似,通过参照MeSH,ICD等疾病分类标准,对人类的常见疾病与罕见病进行了归纳整理,提供了一个统一的,标准化的疾病分类系统。DO是一个疾病研究的专业网站,其中还包括每种疾病的ICD代码。但它们与基因没有关联,必须对每种疾病分别进行搜索(图2C)。由于它不是一个特定于基因研究的网站,无法执行多个输入的搜索和相对较小的基因库是一个相对不利的方面。

八、DISEASES数据库

DISEASES数据库集成了现有数据库中的疾病-基因关联、癌症突变数据和全基因组研究的数据挖掘结果。搜索BRCA1等基因主要生成一个包括名称、类型和ID的匹配结果。点击基因名生成基因与疾病关联信息的详细页面。DISEASES因其独特的数据收集方法和海量数据,有助于数据挖掘工作。

九、Gene2Function数据库

G2F用于绘制人类和常见模型生物的标准基因图谱,通过G2F可以轻易调查物种信息。G2F支持基因或疾病术语的搜索。使用基因ID进行搜索,将显示其他物种的预测同源基因、基因同源关系可信度以及总结。对于人类疾病,结果会显示每个疾病相关基因的详细信息。

文章还详细介绍了DiseaseEnhancer、Genetic and Rare Diseases Information Center、miR2Disease、Orphanet、DisGeNET、The Human Gene Mutation Database、SwissVar、eDGAR和GeneCardSuite等数据库的数据内容和使用优劣(https://doi.org/10.1093/bib/bbz038.)。

十、总结

人类基因组计划的完成,为人类基因组到个体化医疗的研究奠定了基础。生物数据的爆发式增长,数据库和工具的数量不断增加。在这里,作者主要针对那些可以进行基因到疾病搜索的数据库的进行了回顾性分析。大多数数据库只关注收集和存储不同类型的数据,而不是定向而简洁地向用户展示数据。本综述旨在概述公共资源中基因疾病关联数据库的现状,以克服用户在搜索特定疾病和基因信息时所面临的困难

有些数据库基于简单的文献网站,比如OMIM。这些数据库并不能直观地提供相应的疾病信息,需要用户在不同的页面和选项间不断切换来寻找最合适的结果。DISEASES、eDGAR和GeneAlaCart搜索基因可以直接输出相关的疾病,但只是间接地讨论了基因和疾病之间的关系。ClinVar利用变异(variations)将疾病和相关基因联系起来,CNVD使用拷贝数变异,miR2Diseasea使用miRNAs,DiseaseEnhancer使用增强子,HGMD着眼于胚系突变, SwissVar的重点是蛋白质变异,而GARD和Orphanet主要关注罕见疾病。大多数数据库或工具有多个数据来源,这有时也是一把双刃剑。一方面,更多的数据源丰富了数据库的资源,另一方面,过多的数据源会导致不确定或错误的数据增多。

数据库是检索人类基因注释数据的重要资源,有些数据库基于文献、基因、蛋白质和突变数据库,但并非所有数据库都用Ensembl基因ID标注基因。同时,没有一个数据库可以直接将基因ID与目前基于疾病表型的国际疾病统计分类(ICD)和相关健康问题代码关联起来。将基因定位到疾病,同时将疾病关联到准确的ICD编码,有助于对疾病进行更有效的治疗。随着基因变异数据的指数级积累,将其应用于医疗从而对临床数据进行映射已经变得至关重要。目前有诸如GenCode和Ensembl等内参基因注释数据库,但还没有对应的基因-疾病关联标准。

这是一个大数据时代,与人类相关的生物数据库数量不断增长,在数据存储、处理、交流和管理方面都面临着前所未有的挑战。为研究和医疗人员提供高效、友好、简单的导航和免费的访问的数据库平台是非常重要的,可以通过预测诊断、精确评估、定制治疗和定制药物管理,促进精准医疗的发展。许多研究结果表明,基因组学和相关数据库可以有效地纳入医疗与临床实践中。通过整合代谢组学、转录组学、蛋白质组学和表观基因组学,揭示基因组变异的功能,不仅有助于疾病治疗,还将彻底改善医疗行业。尽管已经有许多重要的基因遗传学发现,但对像癌症这样的复杂疾病的具体发病机制仍有待深入研究。对个体基因组进行个性化分析,研究新的预防和治疗方法是更为科学的思路。基于基因的药物设计、对促癌因子的精确靶向、预测个体对疾病的易感性、对精神疾病的诊断和治疗,将是未来十年的研究重点。为此,对基因数据库库和资源的深入了解是至关重要的。

参考文献:Zeeshan S, Xiong R, Liang BT, et al. 100 Years of evolving gene-diseasecomplexities and scientific debutants. Brief Bioinform, 2020, 21(3): 885-905.

往期精品(点击图片直达文字对应教程)

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

(请备注姓名-学校/企业-职务等)

深度综述|基因与疾病关系研究的百年进展相关推荐

  1. 【论文综述】基于深度学习语音分离技术的研究现状与进展

    基于深度学习语音分离技术的研究现状与进展 本文主要是针对单通道的监督性语音分离技术的综述,描述该技术涉及到的特征.模型和目标三个主要方面:并对语音分离的一般流程和整体框架进行了详细的介绍.归纳和总结. ...

  2. 甲减、甲状腺相关疾病最新研究、治疗进展(2021年下半年)

    先天性甲状腺激素功能低下症(甲减),是由甲状腺激素分泌不足导致的内分泌紊乱.世界范围内新生儿发病率高达1:1,400-1:2,800.临床上,20%-60%甲减患者表现出贫血或免疫缺陷等症状,但分子机 ...

  3. 易基因:2023年植物表观转录组研究的最新进展(m6A+m5C)|深度综述

    大家好这里是专注表观组学十余年,领跑多组学科研服务的易基因. 被称为表观转录组(epitranscriptome)的RNA修饰正成为基因调控的广泛调控机制.由于绘制转录组范围RNA修饰测序策略的改进, ...

  4. Nature综述:宏基因组测序研究耐药基因的方法和资源

    本文转自红皇后学术,链接 https://mp.weixin.qq.com/s/2QMrq6hwr4mIPSpe_rfXJg 论文信息 论文题目:Sequencing-based methods an ...

  5. 基于深度学习的命名实体识别研究综述——论文研读

    基于深度学习的命名实体识别研究综述 摘要: 0引言 1基于深度学习的命名实体识别方法 1.1基于卷积神经网络的命名实体识别方法 1.2基于循环神经网络的命名实体识别方法 1.3基于Transforme ...

  6. 《强化学习周刊》第26期:UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...

    No.26 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  7. 基于深度学习的场景分割算法研究综述

    基于深度学习的场景分割算法研究综述 人工智能技术与咨询 来自<计算机研究与发展> ,作者张 蕊等 摘 要 场景分割的目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问 ...

  8. 基于深度卷积神经网络的目标检测研究综述

    基于深度卷积神经网络的目标检测研究综述 人工智能技术与咨询 来自<光学精密工程> ,作者范丽丽等 摘要:作为计算机视觉中的基本视觉识别问题,目标检测在过去的几十年中得到了广泛地研究.目标检 ...

  9. JGG :微生物所王军-综述固有免疫细胞在胃肠道疾病中研究进展

    2021年8月20日,Journal of Genetics and Genomics 在线发表了中国科学院微生物研究所王军研究员团队题为"Innate lymphoid cells and ...

最新文章

  1. C语言 · 征税程序
  2. UIUC教授季姮:叫我带头人,而不是女性带头人(附视频)
  3. Atitit..css的体系结构
  4. 第一方Cookie和第三方Cookie
  5. java快递下单模块,Java开发快递物流项目(7)
  6. 序列每天从0开始_序列比对(十一)——计算符号序列的全概率
  7. unchecked异常_为什么要在Java中使用Unchecked异常而不是Checked异常
  8. xfire开发webservice
  9. 金立e3t刷android4.4,金立E3T刷机包 Amigo OS 小清新风格 个性化定制功能 稳定流畅...
  10. flask Flash消息
  11. iOS UITableView设置UITableViewStyleGrouped模式下section间多余间距的处理
  12. 关于 Profile
  13. msgpack使用 php_如何使用msgpack进行读写?
  14. 计算机技术专业求职简历,计算机技术专业求职简历模板
  15. 记录:The field files exceeds its maximum permitted size of 1048576 bytes...解决方案【亲测有效】
  16. 10个提高工作效率的超实用工具
  17. R语言使用median函数计算dataframe数据中特定数据列的中位数、如果包含NA值则需要设置na.rm参数为TRUE
  18. 机器学习核心算法各个击破
  19. 关于Cause: java.lang.ClassNotFoundException: Cannot find class: 0(提示找不到类)报错
  20. 5.庆功会-多重背包

热门文章

  1. 坏掉的项链(洛谷P1203题题解,C++语言描述)
  2. 【软件测试】软件测试札记
  3. 【Python】TensorBoard已发送内容的清除
  4. 【数据结构与算法】图的邻接表表示及其BFS、DFS的Java实现
  5. 【初等数论】指数、原根与不定方程
  6. Golang面试题解析(五)
  7. laravel 错误与日志
  8. Class文件结构amp;字节码指令
  9. Kettle入门--作业和转换的使用
  10. 设置调试PHP,debug php输出所有错误信息