ClinVar是一个免费访问的公共数据库,记录了人类变异和表型之间的关系,并提供了支持性证据(supporting evidence)。ClinVar提供的变异临床意义(clinical significance)判读标准(Assertion Criteria)包含:pathogenic, likely pathogenic, uncertain significance, benign等。

ClinVar首页(https://www.ncbi.nlm.nih.gov/clinvar/)

ClinVar可处理用户提交的病人样本变异检测报告、变异临床意义的判读、提交者的信息和其他支持数据。ClinVar将提交的等位基因映射到参考序列,并按照HGVS标准进行报告。

简化的HGVS变异命名标准

“c.”前缀:基于coding DNA参考序列的标准变异命名;“p.”前缀:基于蛋白质水平氨基酸序列的标准变异命名

ClinVar可将数据呈现给(网页)交互式用户,也可以给那些希望在日常数据分析流程和其他本地应用程序中使用ClinVar数据的用户。ClinVar(积极地)与志同道合的组织或机构合作,尽可能高效地满足医学遗传学研究人员的需求。

ClinVar数据库变异位点统计:

可见目前已收录的具有临床判读的变异大约100万个(人类全外显子序列总计约3000万个位点,ClinVar收录的约占3.3%)。ClinVar目前不包括来自GWAS研究的未经整理的数据集。

借助其它机构提交或贡献的数据,ClinVar汇总了大量已有的研究结果,在研究人员面对个人基因组或外显子组数据产生的海量变异位点时,ClinVar可以帮助从中筛选具有临床意义/显著性(clinical significance)的位点,例如P/LP(Pathogenic / Likely Pathogenic)位点。

ClinVar数据库在线检索

可以按照以下关键词搜索:基因名、rs号、疾病、染色体位置、UniProt标识符、HGVS表达式或物种名称。目前不支持BLAST或基于序列的搜索。

搜索基因HBB:

上图红色框选择P/LP等致病性分类,错义或移码变异等,SNV/InDel等:

搜索结果很多,找起来不是很方便(Glu6Val或Glu7Val),甚至感觉很难找。

搜索疾病名称(Sickle cell anemia)试一下:

搜索结果仍比较多,很难定位到临床上关注的主要变异位点(Glu6Val或Glu7Val)。

因此,ClinVar并不太适合像OMIM那样,在网站上对单个疾病或基因进行检索。如果研究文献,你会发现ClinVar最重要的应用是从个人基因组的海量变异位点中寻找致病或可能致病(P/LP)的位点。

那么我们就需要下载ClinVar的涉及所有变异位点、所有基因的后台数据,方便进行生物信息学的批量分析。(做过有关遗传学的基因组或外显子组分析的朋友可能体会到,这个功能是一个多么无敌的存在!)

ClinVa

r所有变异位点后台数据的下载

在首页进入:FPT site

进入:Tab delimited

下载:variant_summary.txt.gz

用Linux系统的wget下载:

wget https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/variant_summary.txt.gz
wget https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/README
zcat variant_summary.txt.gz | head -n 5000 # 解压并查看前5000行
head -n 5000 variant_summary.txt > variant_summary.xls # 生成excel表

用Excel打开前5000行的数据。

先用鼠标选几行数据,设置自动调整列宽(开始->格式):

各列的含义(详见:README):

AlleleID:ClinVar定义的等位基因变异位点的ID。一个ID出现两次是因为同时写了GRCh37和GRCh38;

Type:SNV,InDel,CNV(Deletion,Duplication)和Microsatellite分类;

Name:变异的HGVS表达式;

GeneID:基因的NCBI(或Entrz)ID;

HGNC_ID:string, of format HGNC

ClinicalSignificance:临床意义判读。这个信息非常重要。rs号的变异位点去掉重复后(共约60万个)的临床意义判读分布如下:

cut -f 7,10 variant_summary.txt | awk 'BEGIN{OFS=FS="\t"}{if(gen[$2]=="") print $1; gen[$2]=1}' | sort | uniq -c | sort -n

可见ClinVar收录了大概10万个P或LP变异位点

ClinSigSimple:

RS# (dbSNP):来自dbSNP的rs号;

PhenotypeList:与变异有关的表型或疾病。Phenotype/conditions。

Origin:allelic origins for this variant, germline or somatic。

其它详见README文档。

测试:ClinVar数据的准确性和覆盖度

使用一些已知的致病机制模型在不同数据库中进行相互验证,是个很有趣的事。可以帮助我们测试某个数据库所收录数据的权威性、准确性和完整性。

目前从ClinVar最新获取的SNV或InDel注释大约有100万个,推测包含常见疾病的、常见变异位点,但不一定收录了所有潜在的致病位点,尤其考虑到个体的异质性及多数疾病的复杂性。接下来我们简单测试一下ClinVar数据的准确性和覆盖度。

我们先从权威数据库OMIM上搜索“Sickle cell anemia”(镰刀型贫血症),找其致病基因和致病变异位点,然后测试一下ClinVar是否收录、P/LP的归类,并配合一些其它的必要的数据库。

1. 在OMIM搜索“Sickle cell anemia”。链接:OMIM的简介和使用。

2. 选择第一个搜索结果:

3. 点击致病基因的MIM编号

4. 点击“Allelic Variation”(等位基因变异)下的“Table View”:

5. 然后在网页内搜索(快捷键:Ctrl + F):“Sickle cell anemia”

找到致病基因的致病位点(rs334,HBB,GLU6VAL):

可见,氨基酸的变化是GLU6VAL,这印证了我们之前推文的一个致病机制图解(如下图)。链接:正常与突变蛋白三维结构模型的绘制与分析。

注意:上图中未标明起始密码子AUG翻译的甲硫氨酸(Met,M)。


真核生物的起始密码子AUG翻译对应的是甲硫氨酸(Met,M),原核生物的起始密码子AUG翻译对应的是甲酰甲硫氨酸(fMet)。


6. NCBI上搜索HBB蛋白的FASTA序列

另一个条目(NP_000509.1):

如果计算开头的M,第7位为谷氨酸(三字母:Glu,单字母:E) ;

如果不计算开头的M,第6位为谷氨酸(三字母:Glu,单字母:E) 。

因此,OMIM显示的HBB蛋白的这个氨基酸变化(GLU6VAL)必然没有计算起始密码子翻译的甲硫氨酸。

7. 我们查看上述HBB的rs334是否被收录在ClinVar,以及相关的信息是否与OMIM存在冲突:

发现与OMIM不同,ClinVar显示的是Glu7Val(c.20A>T),计数“7”应该是计算了起始密码子翻译的甲硫氨酸。

我们换HBB的另一个位点(rs33916412),发现对氨基酸的计数也整好差一个:

OMIM:

ClinVar:

ClinVar与其它数据库(如:HPO,MONDO,MedGen,OMIM,Orphanet,ClinGen和UniProtKB)的编号系统有很好的匹配。

dbSNP:

https://www.ncbi.nlm.nih.gov/snp/rs33916412?horizontal_tab=true#variant_details

小节:

仅看HBB蛋白的一些突变位点,OMIM显示的氨基酸变化序数并没有计算起始密码子翻译的甲硫氨酸,但ClinVar和dbSNP数据库都计算了。实际使用时要注意这一点。

以EGFR基因的G719C突变评估ClinVar

其实OMIM上并非所有的基因标记的氨基酸变化序数都没有计算起始密码子翻译的甲硫氨酸。

例如换为EGFR基因的G719C突变,这个位点也是临床上偶有见到的突变和药物靶点:

http://majia.yuaigongwu.com/mag/circle/v1/forum/threadWapPage?fid=141&tid=34024

结果发现:OMIM与其它数据库的氨基酸变化序数又能完全匹配:

OMIM:

ClinVar:

令人惊喜的是,ClinVar的这个后台数据也能准确报告“药物反应”和“体细胞突变”

dbSNP:

https://www.ncbi.nlm.nih.gov/snp/rs28929495?horizontal_tab=true#variant_details

蛋白序列(NP_005219.2):

小节:

对于起始密码子翻译的甲硫氨酸(Met,M)是否参与突变氨基酸序数的计算,ClinVar和dbSNP数据库都计算了,但OMIM只有部分蛋白计算。实际使用时一定要注意这一点。

以一个罕见病的药物靶点评估ClinVar

我们从下图中找一个罕见病。如肺动脉高压(Pulmonary Arterial Hypertension,PAH),是一种常见病、多发病,致残率、致死率高,获批药物来自Actelion公司。

https://www.sohu.com/a/376175517_139908

家族性肺动脉高压是一种常染色体、不完全显性遗传性疾病,尚无法准确预测致病基因携带者的发病早晚、严重程度和进展速度等。OMIM数据库显示该病的致病基因为BMPR2,AD(常染色体显性),分子机制已知。

涉及的SNV如下:

OMIM:

ClinVar:

rs137852741

rs1085307219(Del,缺失变异)

rs137852746

以上信息都能完全匹配。

一个rs号有多个RCV号的原因:

ClinVar将格式为SCV000000000.0的Accessions分配给每个提交的记录。如果有关于同一变异/条件(Condition)对的多个提交记录,它们将在ClinVar的数据流中聚合,并以RCV000000000.0格式作为引用加入报告。由于这个模型,每当一个变异被报告处在多个不同条件时,一个变异将被包含在多个RCV中(Because of this model, one variant will be included in multiple RCV accessions whenever different conditions are reported for that variant)。

小节:

ClinVar整合了多种来源的数据或证据。数据可被追溯。对一些罕见病的致病位点也有很好的收录。

总结

ClinVar数据库是与疾病相关的人类基因组变异数据库。在多数已知的疾病模型中,ClinVar整合了OMIM、Orphanet、ClinGen、UniProtKB和dbSNP等多个数据库的变异HGVS注释及其编号,临床意义的解释也较为准确。

总体上ClinVar数据库的准确性和覆盖度高,提交机构不断提交新的数据并免费提供给用户,是相关科学研究的宝贵资源。

最后我们看一下ClinVar数据库Top10提交者(机构):

即使在Top50中没有中国研究机构的身影。之后的机构粗略地看了下,有协和医院、北京大学和其它一些中国医院。考虑到我们国家人口及患者基数庞大,科研论文数量也已位居世界第一/第二,如何引导科研使其更好地指导社会生活和生产值得思考。

ClinVar所有变异位点后台数据的下载链接:

https://pan.baidu.com/s/1ADYLM_iNbpmF5Bc5sAaJIg

提取码:vthp

更多人类遗传学知识、文献和分析技术

请关注和星标聊生信、生信宝典

往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

人类遗传变异神库 | ClinVar数据库详解相关推荐

  1. mysql命令导入导出数据库_MYSQL命令行导入导出数据库详解

    Mysql命令行导入数据库: 1,将要导入的.sql文件移至bin文件下,这样的路径比较方便 2,同上面导出的第1步 3,进入MySQL:mysql -u 用户名 -p 如我输入的命令行:mysql ...

  2. exp/expdp 与 imp/impdp命令导入导出数据库详解

    exp/expdp 与 imp/impdp命令导入导出数据库详解 一.exp命令导出数据库 如何使exp的帮助以不同的字符集显示:set nls_lang=simplified chinese_chi ...

  3. viper4android io错误,golang常用库之配置文件解析库-viper使用详解

    一.viper简介 viper 配置管理解析库,是由大神 Steve Francia 开发,他在google领导着 golang 的产品开发,他也是 gohugo.io 的创始人之一,命令行解析库 c ...

  4. MIT-BIH心律失常数据库详解

    MIT-BIH心律失常数据库详解 介绍 数据 各记录导联类型 搏动类型数量统计表 注释标记说明 介绍 MIT-BIH心律失常库包含48条双通道动态心电信号记录,每一条都超过了30min 记录来自于心律 ...

  5. mysql数据类型设计说明_MySQL的数据类型和建库策略分析详解

    MySQL的数据类型和建库策略分析详解 更新时间:2008年04月06日 01:16:47   作者: 无论是在小得可怜的免费数据库空间或是大型电子商务网站,合理的设计表结构.充分利用空间是十分必要的 ...

  6. pandas读写MySQL数据库详解及实战

    pandas读写MySQL数据库详解及实战 SQLAlchemy是Python中最有名的ORM工具. 关于ORM: 全称Object Relational Mapping(对象关系映射). 特点是操纵 ...

  7. python参数估计_python简单实现最大似然估计scipy库的使用详解

    python简单实现最大似然估计 1.scipy库的安装 wim+R输入cmd,然后cd到python的pip路径,即安装:pip install scipy即可 2.导入scipy库 from sc ...

  8. c/c++ 标准库 插入迭代器 详解

    标准库 插入迭代器 详解 插入迭代器作用:copy等函数不能改变容器的大小,所以有时copy先容器是个空的容器,如果不使用插入迭代器,是无法使用copy等函数的. 例如下面的代码就是错误的: list ...

  9. h2 不能访问localhost_SpringBoot2.x系列教程44--H2数据库详解及搭建Web控制台

    SpringBoot2.x系列教程44--H2数据库详解及搭建Web控制台 作者:一一哥 我在上一章节中讲解了Spring Boot中整合Mybatis,接下来我给大家介绍一款内存数据库--H2. H ...

最新文章

  1. 在Ubuntu 14.04 64bit上进行md5加密编程
  2. 敲山震虎?继MongoDB之后,AWS又对Elasticsearch下手了
  3. tcp/ip详解--环回接口
  4. AutoMySQLBackup 3.0 Bug:du: WARNING: use --si, not -H
  5. 【laravel】我和laravel的旅程
  6. 先进先出算法_结构与算法(02):队列和栈结构
  7. 从Commons CLI迁移到picocli
  8. 深度模型压缩论文(02)- BlockSwap: Fisher-guided Block Substitution for Network Compression
  9. 2个vector如何合成一个_面试中如何做到不卑不亢,牢记2个要点
  10. 数据库优化 - 多列索引经典题目
  11. Windows管道技术
  12. Linux 中mysql常用命令
  13. 三星Nexus S刷回官方4.0.4教程
  14. 【Kafka】Kafka IllegalArgumentException: Could not find a ‘KafkaClient‘ entry in the JAAS configuratio
  15. 山东大学2022软件测试技术复习纲要
  16. 关于来料检验中多退货的问题
  17. 使用MySQL Workbench备份和还原数据库
  18. 【win10网络重置后,网络适配器消失或者不能使用】
  19. Joel Spolsky给计算机专业学生的七个建议
  20. Python实现批量修改图片名称并存入新文件夹

热门文章

  1. 【离散数学】命题逻辑符号化例题
  2. 【C语言】第八章 地址操作与指针 题解
  3. MySQL通过添加索引解决线上数据库服务器压力大问题
  4. 学习MySQL / MariaDB初学者 - 第1部分
  5. nginx日志格式、参数及切分
  6. open***2.3.12安装与easy-rsa3的使用
  7. CAShapeLayer的使用[1]
  8. ios开发入门资料整理
  9. 文件的上传下载(一)
  10. 对于访问IIS元数据库失败的解决