欢迎关注公众号:oddxix

1.dbSNP简介


网址:https://www.ncbi.nlm.nih.gov/SNP/

单核苷酸多态性数据库dbSNP(dbSNP, The Single Nucleotide Polymorphism Database)是由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,收录了SNP、短插入缺失多态性、微卫星标记和短重复序列等数据,以及其来源、检测和验证方法、基因型信息、上下游序、人群频率等信息。

dbSNP接受明显中性的多态性,对应于已知表型的多态性和无变异的区域。它于1998年9月创建,用于补充NCBI收集的公众可获得的核酸和蛋白质序列GenBank。从构建131(2010年2月开始)开始,dbSNP已经收集了超过1.84亿份提交文件,代表了55种生物的超过6400万种不同变种,包括智人,小家鼠,水稻和许多其他物种。 NCBI将在2017年逐步停止对dbSNP和dbVar中的所有非人类生物的支持。

image

dbSNP是一个在线资源,用于帮助生物学研究人员。其目标是作为一个单一的数据库,包含所有已识别的遗传变异,可用于调查各种基因遗传自然现象。具体而言,访问dbSNP中编目的分子变异有助于基础研究,如物理作图,群体遗传学,进化关系研究,以及能够快速,轻松地量化给定感兴趣位点的变异量。此外,dbSNP指导药物基因组学的应用研究以及遗传变异与表型特征的关联。

dbSNP数据流

首先各种来源提交数据,为每个变体分配唯一的提交的SNP ID(ss#)( ss,NCBI Assay ID)。 然后由于不同研究结构提交的SNP会存在冗余,提取SNP位点上下游区域的序列,比对参考基因组,如果多个ss # 比对上相同的位置,说明这几个SNP位点是冗余的,会赋予一个新的reference SNP ID, 以rs开头 。用户可以检索特定rs#记录的数据并分析这些变化。


2.dbSNP的数据结构

2.1数据下载及目录

dbSNP数据下载地址:ftp://ftp.ncbi.nih.gov/snp/

dbSNP下载目录

dbSNP包含了许多目录,其中最有用的是:

organisms/:目录包含了一列有SNP数据的生物体目录,其按通用名后接NCBI分类id号来组织的。
database/:包含模式(schema)、数据、创建表格和索引的SQL语句。
specs/:目录包含重要的文件的格式,内容及其基本介绍。

相关详细信息见ftp://ftp.ncbi.nih.gov/snp/00readme.txt

点击特定的生物体子目录即可访问其中的ftp报表文件,你还可以选择同一个物种的不同版本。比如你点击了human_9606 目录,那么你会发现人体组织子目录包含以下子目录:ASN1_bin/、ASN1_flat/、XML/、VCF/、chr_rpts/、gene_report/、Genome_report/、rs_fasta/、ss_fasta/、genotype_by_gene/、genotype/、haplotypes/、database/、misc/、Enterz/

human_9606 目录

目录说明:

/ASN1_bin : ASN.1 二进制格式的RefSNP文档综述 (.bin)
/ASN1_flat :从ASN.1 二进制格式而来的按染色体排序的RefSNP docsum(.flat)
/XML: 提供refSNP簇的具体查询信息以及NCBI SNP交换格式的簇成员(.xml)
/chr_rpts :包含特定染色体上的RefSNPs 的完整列表(.txt)
/genotype :以基因型交换XML格式提供提交的SNPs的submitter和基因型信息(.xml)
/genome_reports :包含生物体SNP密度分布的概要报告以及每个基因中的SNPs的概要报告(无后缀或.rpt或.log)
/ss_fasta :包含FASTA格式的生物体的所有可用的submitted SNP(ss)序列数据(.fas)
/rs_fasta :包含FASTA格式的人类所有可用的参考SNP (RS)序列数据(.fas)

2.2 /chr_rpts 中的txt文件内容:

1 RefSNP id (rs#)rs代号
2 mapweight where 匹配个数
1 = Unmapped
2 = Mapped to single position in genome
3 = Mapped to 2 positions on a single chromosome
4 = Mapped to 3-10 positions in genome (possible paralog hits)
5 = Mapped to >10 positions in genome.
3 snp_type where snp类型
4 Total number of chromosomes hit by this RefSNP during mapping 匹配到的染色体个数
5 Total number of contigs hit by this RefSNP during mapping 匹配到的conting个数
6 Total number of hits to genome by this RefSNP during mapping 匹配到基因组的个数
7 Chromosome for this hit to genome 匹配到的染色体
8 Contig accession for this hit to genome 匹配到conting 序号
11 Position of RefSNP in contig coordinates 在conting中匹配到突变的位置
12 Position of RefSNP in chromosome coordinates (used to order report) 在染色体中匹配到突变的位置
Locations are specified in NCBI sequence location convention where:
x, a single number, indicates a feature at base position x
x..y, denotes a feature that spans from x to y inclusive.
x^y, denotes a feature that is inserted between bases x and y
13 Genes at this same position on the chromosome 匹配到的基因名字
18 Genotypes available in dbSNP for this RefSNP 基因型是否可知
1 = yes
0 = no

  • gene_report/中有各个基因的突变信息

  • bed/中包含各个染色体上的snp

  • ASN1_flat /中包含了各个染色体的SNP的详细信息(包含以下9个信息):rs, ss, SNP, VAL, CLINSIG,GMAF,CTG,LOC,SEQ。

  • VCF/: 具体信息查看:http://www.ncbi.nlm.nih.gov/variation/docs/humanvariationvcf/#table-1

主要的突变与临床的关系的文件包含的内容:染色体,突变的位置,rs代号,突变过程,info。其中info包含了突变是否为同义突变;突变实在coding 区还是内含子或UTR;也包含了CLNSIG(0 - Uncertain significance, 1 - not provided, 2 - Benign, 3 - Likely benign, 4 - Likely pathogenic, 5 - Pathogenic, 6 - drug response, 7 - histocompatibility, 255 - other);CLNDSDB(Variant disease database name);CLNDBN(Variant disease name)

更多详细信息见:http://www.ncbi.nlm.nih.gov/variation/view/help/


3.dbSNP数据查询

SNP数据库的数据内容分为两类:一类是提交数据,即观察所得的原始序列变异;另一类是计算内容,即通过对原始提交数据的计算在每个“build”周期中产生的内容。
dbSNP现已并入NCBI的Entrez系统,能使用与其他Entrez数据库(如PubMed 和GenBank)相同的查询方式来查询数据。

  • dbSNP批量查询方式:使用一组变异IDs(包括RefSNP (rs) IDs, Submitted SNP (ss) IDs和Local SNP IDs)来生成各种SNP报表。

  • 标记间查询方式:如果你对两个STS(sequence tagged site ,序列标签位点)标记间的特定基因感兴趣,可以使用这种方式。

  • 位点信息查询方式:现已被Entrez Gene方式所取代。

    dbSNP查询方式

    部分查询方式

    dbSNP的快速查询

    dbSNP的快速查询

    dbSNP的快速查询

    dbSNP的快速查询

目前页面更新了
搜索出来的结果界面如下:

dbSNP的快速查询

egfr示例

点击Switch to classic site可以转至原来的页面


4.dbSNP查询结果

首先会给出一个综合信息,RefSNP中给出了的物种,dbSNP数据库的版本号等信息;Allele中给出了突变类型,碱基变化情况等信息;HGVS Names给出了根据HGVS命名规则指定的突变信息。


4.1Map

这部分给出了SNP位点在不同版本的基因组上的位置信息,可以看到,对于hg19和hg38两个不同版本,位置差别还是挺大的。


4.2GeneView

SNP所在基因组的位置信息,所在转录本和蛋白序列上的位置信息,以及导致碱基改变和氨基酸改变的情况。

SNP在DNA序列上的位置,以及上下游的SNP。


4.3 ss ID

SNP提交人提交到数据库上信息,包括NCBI assay ID和Submitter SNP ID,该SNP是否被验证过,序列的方向,等位基因,上下游的序列,提交时间,更新时间,数据库版本号以及提交序列的类型。这部分可以看到rs号对应的多个ssID。

ss ID


4.4 SNP位点的fasta序列


4.5 Population Diversity

SNP在各个人群研究中的人群频率。

需要注意的是,该数据库将于2017年9月1日开始停止接收非人类物种的SNP提交信息,于2017年11月1日开始停止非人类物种的SNP查询功能,但是之前的所有非人类物种的SNP数据仍然可以在dbSNP数据库的FTP上下载。所有非人类物种的SNP信息提交可以上传到European Bioinformatics Institute (EBI) -European Variation Archive数据库。dbSNP 数据库的简单使用今天为大家介绍到这儿,以后再为大家推荐更多有用的数据库哦。


5.参考

https://en.wikipedia.org/wiki/DbSNP
http://blog.sina.com.cn/s/blog_751bd9440102w6rm.html
https://www.ncbi.nlm.nih.gov/projects/SNP/snp_ref.cgi?do_not_redirect&rs=rs712829

转载请注明出处!谢谢!

欢迎关注oddxix

有趣的灵魂等着你~
如果觉得写的不错记得点个赞哦~
感谢关注

【数据库-3】dbSNP数据库相关推荐

  1. sql server登录名、服务器角色、数据库用户、数据库角色、架构区别联系

    原创链接:https://www.cnblogs.com/lxf1117/p/6762315.html sql server登录名.服务器角色.数据库用户.数据库角色.架构区别联系 1.一个数据库用户 ...

  2. mysql数据库语法_MySQL数据库基本语法

    SQL WHAT(SQL是什么?) Structured Query Language:结构化查询语⾔ WHY(为何要使用SQL?) 难道仅仅使用SQL Server Management Studi ...

  3. oracle为什么不用指定数据库,两个数据库怎么保持数据正确显示

    当前位置:我的异常网» Oracle管理 » 两个数据库怎么保持数据正确显示 两个数据库怎么保持数据正确显示 www.myexceptions.net  网友分享于:2015-08-26  浏览:23 ...

  4. mysql数据库名称sid_数据库sid 和数据库名

    数据库名.实例名和ORACLE_SID的区别 导读: 最近因看到论坛有人问起这方面的东西,将自己的理解加上查阅相关资料整理如下,如果不全或不当的地方,望指正并补全它. 数据库名(DB_NAME).实例 ...

  5. 数据库实验:数据库和表、查询、视图与安全性、存储过程及游标、触发器、综合实验-水果商店进阶

    数据库实验:数据库和表.查询.视图与安全性.存储过程及游标.触发器.综合实验-水果商店进阶 实验一.数据库和表 源码1: 源码2: 小结 实验二.查询 源码 小结 实验三.视图.安全性 源码: 小结 ...

  6. 什么是图数据库?图数据库实践与创新浅析

    近日,中国工程院院士,清华大学计算机科学与技术系教授郑纬民先生,在人民日报发表文章<把握图数据库自主创新机遇>,建议国内科研学者和工程人员,要在图数据库的理论研究与工程研发上坚持自主创新道 ...

  7. 批着DDD,实则是以数据库为中心------数据库已死

    现代软件和以往传统软件主要区别在于:现代软件基于internet互联网技术,运行于开放的网络环境,不象传统软件只是运行在封闭的局域网,运行环境的区别就决定了软件操作用户的多少,在一个开放互联网环境, ...

  8. mysql e 导出数据库_mysql导出数据库几种方法

    方法一 cmd 到mysql bin目录下用 如下命令 mysqldump --opt -h192.168.0.156 -uusername -ppassword --skip-lock-tables ...

  9. 自建mysql和华为云mysql_自建数据库和云数据库区别和使用(以MySQL为例)

    在程序员这个群体中,多数人是从事应用开发,在应用开发中一定会跟数据打交道.很多程序员入门学习就是Mysql数据库,它不仅仅是找工作面试最常问的,也是干私活必备的数据库.当然在如今数字基建的背景下,云数 ...

最新文章

  1. python怎么封装方法然后调用_Python实现封装打包自己写的代码,被python import
  2. 汇编语言实验 3 编程、编译、连接、跟踪
  3. 一年月份大小月口诀_怎么看自己的日柱 公式 推算口诀 最简便计算方法
  4. 数据结构快速掌握和温习-面试神器
  5. 2021计算机专业考408的学校,2021考研:计算机考研408是什么?统考学校有哪些?...
  6. css复合选择器 1205
  7. 计算机专业排版有哪些,计算机专业英语词汇(完美排版_大容量打印版).pdf
  8. java能否回文_如何使用Java查找字符串是否是回文?
  9. 敏捷开发免费管理工具——火星人预览之六:我的空间,我的通知
  10. android 自定义窗口,Android studio如何自定义设置窗口布局?
  11. LeetCode解题思路—快慢指针
  12. 职称计算机考试题库破解版2017,2017职称计算机考试题库及答案
  13. quartz定时器表达式详解
  14. Redis深度历险——原理与集群篇
  15. 错误码errno和perror函数
  16. 三八节礼物推荐,不能错过的四款数码好物推荐
  17. 2023MyBatis全新面试题【30题】
  18. ise 时钟约束_ISE 约束文件完整讲解
  19. 用scratch编写游戏“小蝌蚪成长”中使背景大于480*360
  20. mac 环境下svn客户端安装和简单使用

热门文章

  1. truncate(截断)与delete(删除)的区别
  2. 常用字符集及字符编码和Charset类
  3. JAVA计算机毕业设计移动电商网站Mybatis+源码+数据库+lw文档+系统+调试部署
  4. word出现无法加载加载项Please restart Word to load Mathtype addin properly或wps无法加载此加载项程序
  5. SegmentFault 思否联合开源社共同推出中国开源先锋 30 人评选
  6. php相机拍照太大,光比大就不能拍照了?教你5个简单的补救措施
  7. GAKG: A Multimodal Geoscience Academic Knowledge Graph 多通道地理学学术知识图谱
  8. java-net-php-python-jspm小区物业管理系统设计计算机毕业设计程序
  9. 2016计算机三级网络技术,计算机三级网络试题及答案解析2016
  10. Tapioca-语音通话及即时谈天软件