人类遗传变异神库 | ClinVar数据库详解

ClinVar是一个免费访问的公共数据库，记录了人类变异和表型之间的关系，并提供了支持性证据（supporting evidence）。ClinVar提供的变异临床意义（clinical significance）判读标准（Assertion Criteria）包含：pathogenic, likely pathogenic, uncertain significance, benign等。

ClinVar首页（https://www.ncbi.nlm.nih.gov/clinvar/）

ClinVar可处理用户提交的病人样本变异检测报告、变异临床意义的判读、提交者的信息和其他支持数据。ClinVar将提交的等位基因映射到参考序列，并按照HGVS标准进行报告。

简化的HGVS变异命名标准

“c.”前缀：基于coding DNA参考序列的标准变异命名；“p.”前缀：基于蛋白质水平氨基酸序列的标准变异命名

ClinVar可将数据呈现给（网页）交互式用户，也可以给那些希望在日常数据分析流程和其他本地应用程序中使用ClinVar数据的用户。ClinVar（积极地）与志同道合的组织或机构合作，尽可能高效地满足医学遗传学研究人员的需求。

ClinVar数据库变异位点统计：

可见目前已收录的具有临床判读的变异大约100万个（人类全外显子序列总计约3000万个位点，ClinVar收录的约占3.3%）。ClinVar目前不包括来自GWAS研究的未经整理的数据集。

借助其它机构提交或贡献的数据，ClinVar汇总了大量已有的研究结果，在研究人员面对个人基因组或外显子组数据产生的海量变异位点时，ClinVar可以帮助从中筛选具有临床意义/显著性（clinical significance）的位点，例如P/LP（Pathogenic / Likely Pathogenic）位点。

ClinVar数据库在线检索

可以按照以下关键词搜索：基因名、rs号、疾病、染色体位置、UniProt标识符、HGVS表达式或物种名称。目前不支持BLAST或基于序列的搜索。

搜索基因HBB：

上图红色框选择P/LP等致病性分类，错义或移码变异等，SNV/InDel等：

搜索结果很多，找起来不是很方便（Glu6Val或Glu7Val），甚至感觉很难找。

搜索疾病名称（Sickle cell anemia）试一下：

搜索结果仍比较多，很难定位到临床上关注的主要变异位点（Glu6Val或Glu7Val）。

因此，ClinVar并不太适合像OMIM那样，在网站上对单个疾病或基因进行检索。如果研究文献，你会发现ClinVar最重要的应用是从个人基因组的海量变异位点中寻找致病或可能致病（P/LP）的位点。

那么我们就需要下载ClinVar的涉及所有变异位点、所有基因的后台数据，方便进行生物信息学的批量分析。（做过有关遗传学的基因组或外显子组分析的朋友可能体会到，这个功能是一个多么无敌的存在！）

ClinVa

r所有变异位点后台数据的下载

在首页进入：FPT site：

进入：Tab delimited

下载：variant_summary.txt.gz

用Linux系统的wget下载：

wget https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/variant_summary.txt.gz
wget https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/README
zcat variant_summary.txt.gz | head -n 5000 # 解压并查看前5000行
head -n 5000 variant_summary.txt > variant_summary.xls # 生成excel表

用Excel打开前5000行的数据。

先用鼠标选几行数据，设置自动调整列宽（开始->格式）：

各列的含义（详见：README）：

AlleleID：ClinVar定义的等位基因变异位点的ID。一个ID出现两次是因为同时写了GRCh37和GRCh38；

Type：SNV，InDel，CNV（Deletion,Duplication）和Microsatellite分类；

Name：变异的HGVS表达式；

GeneID：基因的NCBI（或Entrz）ID；

HGNC_ID：string, of format HGNC

ClinicalSignificance：临床意义判读。这个信息非常重要。rs号的变异位点去掉重复后（共约60万个）的临床意义判读分布如下：

cut -f 7,10 variant_summary.txt | awk 'BEGIN{OFS=FS="\t"}{if(gen[$2]=="") print $1; gen[$2]=1}' | sort | uniq -c | sort -n

可见ClinVar收录了大概10万个P或LP变异位点

ClinSigSimple：

RS# (dbSNP)：来自dbSNP的rs号；

PhenotypeList：与变异有关的表型或疾病。Phenotype/conditions。

Origin：allelic origins for this variant, germline or somatic。

其它详见README文档。

测试：ClinVar数据的准确性和覆盖度

使用一些已知的致病机制模型在不同数据库中进行相互验证，是个很有趣的事。可以帮助我们测试某个数据库所收录数据的权威性、准确性和完整性。

目前从ClinVar最新获取的SNV或InDel注释大约有100万个，推测包含常见疾病的、常见变异位点，但不一定收录了所有潜在的致病位点，尤其考虑到个体的异质性及多数疾病的复杂性。接下来我们简单测试一下ClinVar数据的准确性和覆盖度。

我们先从权威数据库OMIM上搜索“Sickle cell anemia”（镰刀型贫血症），找其致病基因和致病变异位点，然后测试一下ClinVar是否收录、P/LP的归类，并配合一些其它的必要的数据库。

1. 在OMIM搜索“Sickle cell anemia”。链接：OMIM的简介和使用。

2. 选择第一个搜索结果：

3. 点击致病基因的MIM编号：

4. 点击“Allelic Variation”（等位基因变异）下的“Table View”：

5. 然后在网页内搜索（快捷键：Ctrl + F）：“Sickle cell anemia”

找到致病基因的致病位点（rs334，HBB，GLU6VAL）：

可见，氨基酸的变化是GLU6VAL，这印证了我们之前推文的一个致病机制图解（如下图）。链接：正常与突变蛋白三维结构模型的绘制与分析。

注意：上图中未标明起始密码子AUG翻译的甲硫氨酸（Met，M）。

真核生物的起始密码子AUG翻译对应的是甲硫氨酸（Met，M），原核生物的起始密码子AUG翻译对应的是甲酰甲硫氨酸（fMet）。

6. NCBI上搜索HBB蛋白的FASTA序列：

另一个条目（NP_000509.1）：

如果计算开头的M，第7位为谷氨酸（三字母：Glu，单字母：E）；

如果不计算开头的M，第6位为谷氨酸（三字母：Glu，单字母：E）。

因此，OMIM显示的HBB蛋白的这个氨基酸变化（GLU6VAL）必然没有计算起始密码子翻译的甲硫氨酸。

7. 我们查看上述HBB的rs334是否被收录在ClinVar，以及相关的信息是否与OMIM存在冲突：

发现与OMIM不同，ClinVar显示的是Glu7Val（c.20A>T），计数“7”应该是计算了起始密码子翻译的甲硫氨酸。

我们换HBB的另一个位点（rs33916412），发现对氨基酸的计数也整好差一个：

OMIM：

ClinVar：

ClinVar与其它数据库（如：HPO，MONDO，MedGen，OMIM，Orphanet，ClinGen和UniProtKB）的编号系统有很好的匹配。

dbSNP：

https://www.ncbi.nlm.nih.gov/snp/rs33916412?horizontal_tab=true#variant_details

小节：

仅看HBB蛋白的一些突变位点，OMIM显示的氨基酸变化序数并没有计算起始密码子翻译的甲硫氨酸，但ClinVar和dbSNP数据库都计算了。实际使用时要注意这一点。

以EGFR基因的G719C突变评估ClinVar

其实OMIM上并非所有的基因标记的氨基酸变化序数都没有计算起始密码子翻译的甲硫氨酸。

例如换为EGFR基因的G719C突变，这个位点也是临床上偶有见到的突变和药物靶点：

http://majia.yuaigongwu.com/mag/circle/v1/forum/threadWapPage?fid=141&tid=34024

结果发现：OMIM与其它数据库的氨基酸变化序数又能完全匹配：

OMIM：

ClinVar：

令人惊喜的是，ClinVar的这个后台数据也能准确报告“药物反应”和“体细胞突变”。

dbSNP：

https://www.ncbi.nlm.nih.gov/snp/rs28929495?horizontal_tab=true#variant_details

蛋白序列（NP_005219.2）：

小节：

对于起始密码子翻译的甲硫氨酸（Met，M）是否参与突变氨基酸序数的计算，ClinVar和dbSNP数据库都计算了，但OMIM只有部分蛋白计算。实际使用时一定要注意这一点。

以一个罕见病的药物靶点评估ClinVar

我们从下图中找一个罕见病。如肺动脉高压（Pulmonary Arterial Hypertension，PAH），是一种常见病、多发病，致残率、致死率高，获批药物来自Actelion公司。

https://www.sohu.com/a/376175517_139908

家族性肺动脉高压是一种常染色体、不完全显性遗传性疾病，尚无法准确预测致病基因携带者的发病早晚、严重程度和进展速度等。OMIM数据库显示该病的致病基因为BMPR2，AD（常染色体显性），分子机制已知。

涉及的SNV如下：

OMIM：

ClinVar：

rs137852741

rs1085307219（Del，缺失变异）

rs137852746

以上信息都能完全匹配。

一个rs号有多个RCV号的原因：

ClinVar将格式为SCV000000000.0的Accessions分配给每个提交的记录。如果有关于同一变异/条件（Condition）对的多个提交记录，它们将在ClinVar的数据流中聚合，并以RCV000000000.0格式作为引用加入报告。由于这个模型，每当一个变异被报告处在多个不同条件时，一个变异将被包含在多个RCV中（Because of this model, one variant will be included in multiple RCV accessions whenever different conditions are reported for that variant）。

小节：

ClinVar整合了多种来源的数据或证据。数据可被追溯。对一些罕见病的致病位点也有很好的收录。

总结

ClinVar数据库是与疾病相关的人类基因组变异数据库。在多数已知的疾病模型中，ClinVar整合了OMIM、Orphanet、ClinGen、UniProtKB和dbSNP等多个数据库的变异HGVS注释及其编号，临床意义的解释也较为准确。

总体上ClinVar数据库的准确性和覆盖度高，提交机构不断提交新的数据并免费提供给用户，是相关科学研究的宝贵资源。

最后我们看一下ClinVar数据库Top10提交者（机构）：

即使在Top50中没有中国研究机构的身影。之后的机构粗略地看了下，有协和医院、北京大学和其它一些中国医院。考虑到我们国家人口及患者基数庞大，科研论文数量也已位居世界第一/第二，如何引导科研使其更好地指导社会生活和生产值得思考。

ClinVar所有变异位点后台数据的下载链接：

https://pan.baidu.com/s/1ADYLM_iNbpmF5Bc5sAaJIg

提取码：vthp

更多人类遗传学知识、文献和分析技术

请关注和星标聊生信、生信宝典

往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集