原标题:干货 | 如何查找目标基因序列?掌握这几招就够了!(NCBI篇)

上周的干货软文为您介绍了如何在Ensembl数据库查找目标基因序列(Ensembl篇),这周我们将进入NCBI篇,为您讲解如何在该数据库查找目标基因序列。

搜索已被RefSeq收录的基因序列

NCBI,是美国国立生物技术信息中心(National Center for Biotechnology Information)的英文缩写。与专攻基因组检索的Ensembl不同,NCBI数据库的内容更加庞杂和全面,它可提供36种数据检索与分析工具,这其中就包含大家都非常熟悉的文献数据库PubMed。而我们利用NCBI查找目标序列,主要是基于它的RefSeq、即参考序列数据库(reference sequence database)来实现的。概括地说,就是利用相对易获取、或已知的信息,如基因名或基因ID,关联到与之对应的RefSeq序列接收号,从而get目标序列信息。具体操作步骤如下:

01、进入NCBI网站:

进入https://www.ncbi.nlm.nih.gov/,在左侧下拉菜单选择“gene”

02、搜索基因:

可输入基因ID(NCBI Gene ID即GI号)或基因名进行查找。这里以小鼠的隐花色素基因举例,我们直接输入cryptochrome进行搜索,结果如下:

03、找到目标基因:

小鼠Cry1,即第一个结果,点击查看:

该页面会展示该基因具体信息,如上图展示的NCBI Gene ID、更新时间、官方名称、物种、及在其他数据库的链接。我们继续向下拖动页面,找到“NCBI Reference Sequences (RefSeq)”,点击代表mRNA记录的序列接收号,该编号通常以NM开头(图中红框)

04、页面跳转至核苷酸数据库,如下图:

从图中信息可知该基因来自小鼠NM_007771染色体,长度为3035bp,点击“FASTA”可快速查找和下载全基因序列。如下图,在页面右侧,点击“Send to”选项,然后选择“File”,点击“Creat File”按钮。

05、点击“GenBank”切换页面:

该页面除了提供基因序列外,还包含注释信息。我们下拉页面至完整序列信息:

从图中信息可知,编码区序列位于该基因的第584-2404号核苷酸,可结合已下载的全基因序列进行查看。

搜索未被RefSeq收录的基因序列

看到这里,相信有不少小伙伴已经摩拳擦掌,跃跃欲试了,然而在实际操作过程中,我们有时却会遇到这样的情况:用来进行转录组测序分析的参考基因组千真万确就是来自NCBI数据库,然而利用刚学会的方法,在NCBI-gene菜单里搜索相应的基因名却一无所获,这又是为什么呢?

为了回答这个问题,我们需要认识另一个NCBI数据库:GenBank,它是一个DNA序列数据库,收集了所有公开的DNA序列以及与之相关的生物学信息和参考文献,其最主要的信息来源就是作者的直接投递。同属于序列数据库,GenBank与上文提到的RefSeq存在一些区别,主要在于:GenBank是一个开放的数据库,很多研究者或者公司都可以自己提交序列;而RefSeq是经过NCBI筛选的非冗余数据库,可信度更高。

因此,当一段序列仅被GenBank收录,而未被RefSeq收录时,我们自然无法通过上文介绍的通过基因名跳转至相应RefSeq序列接收号的方式来进行查找了。解决办法其实很简单:直接下载全基因组序列,然后搜索基因名即可。具体操作如下:

01、找到参考基因组的编号:

根据有参转录组的结题报告,找到参考基因组的编号,如下图:

02、进入NCBI网站:

进入https://www.ncbi.nlm.nih.gov/,在左侧下拉菜单选择“Assembly”,输入刚才找到的基因组编号:

03、搜索及下载:

点击搜索,进入该基因组的组装信息界面,可见该基因组仅被录入GenBank而未被RefSeq收录(蓝框),因此我们选择下载基因组。点击右侧“Download the GenBank assembly”(图中红框):

04、进入下载页面:

可选择下载CDS序列,或RNA序列(红框),这里我们选择下载CDS序列:

05、解压文件,查找目标基因:

下载完毕,解压后得到一个FASTA格式的序列文件。我们用EditPlus软件打开它,如下图。“locus_tag”即为该基因登记于GenBank的基因名。点击查找工具(图中红框)搜索目标基因名,即可获得相应CDS序列:

总结

看到这里,聪明的您应该已经察觉到了,查找目标基因序列的方法概括起来其实只有三步:确定数据库、输入基因信息、下载特定序列。这似乎与“如何将一只大象关进冰箱?”有异曲同工之妙:我们需要先选择一个合适的“冰箱”,是Ensembl还是NCBI?是Ensembl的脊椎动物、植物还是真菌库?是NCBI的RefSeq还是GenBank?此外,“塞大象的手法”也至关重要,尤其是在NCBI这个“冰箱”里,我们是搜GI号还是基因名?如果搜不到,我们该怎么把这只不愿意进入冰箱的大象“忽悠”进去?在成功地“把冰箱门关上”之后,我们又得到了什么?是全基因的序列,还是CDS序列?

最后,让我们再来回顾一下这张流程图,现在的您应该已经对此心中有数了。只要掌握了这些步骤,相信您一定能轻松而又准确地查找到目标序列。

责任编辑:

ncbi查找目的基因序列_干货 | 如何查找目标基因序列?掌握这几招就够了!(NCBI篇)...相关推荐

  1. dataframe 查找特定值_省时省力的查找引用函数

    如果觉得文章对你有帮助,欢迎点赞.转发.收藏欢迎关注头条号:数据分析鱼,你们的支持是我坚持码字的不懈动力! 上篇文章分享了日期和时间函数,这篇介绍查找引用函数.在数据量非常少的时候 ,可能并不需要使用 ...

  2. 几百万的数据查找重复值_如何快速查找出Excel中的重复数据,多角度分析

    如何多角度查找出重复数据,是数据分析中必不可少的一项.办公中经常遇到重复数据,想要标识出来,再进一步分析,避免数据出错.像人事部门,经常遇到同名不同人这种情况,如果工资发错了,很容易出现大问题,如何来 ...

  3. mysql二分法查找亿行_算法——二分法查找(binarySearch)

    转自:https://blog.csdn.net/u012194956/article/details/79103843 二分法查找,也称为折半法,是一种在有序数组中查找特定元素的搜索算法. 二分法查 ...

  4. 查找重复文件_重复文件查找和磁盘整理工具:Tidy Up

    为大家带来一款实用的重复文件查找和磁盘整理工具,Tidy Up 5 for Mac可以用来快速查找重复文件并整理硬盘,tidy up 5 mac特别版会根据文件的种类组织分离找到项目,非常的好用. t ...

  5. python 查找损坏图片_使用Python查找损坏的图像

    python 查找损坏图片 赶上本系列: 第1部分:使用Python自动执行数字艺术家的重复任务 第2部分:针对数字艺术家的Python文件管理技巧 如果您正在计算机上处​​理图像,那么最终一定会遇到 ...

  6. python查找客户总金额_该程序查找需要支付给所有表现良好的Python的最低金额

    假设我们给出了一个称为等级的数字列表,它显示了编码员的性能得分.现在,经理希望给每个编码器1000卢比,除非两个编码器相邻,他们希望向性能更好的编码器支付至少比性能较差的编码器至少高1000卢比.我们 ...

  7. 初次联系导师短信模板_干货:如何联系导师?如何写自荐信?(复试篇)

    摘要:初试结束了一段时间,很多考研er已经开始进入准备复试阶段,小编提醒大家,在这一阶段里,除了要好好准备书本知识以外,联系导师也是非常重要的一个环节. 一.为什么要提前联系导师 先来讨论下联系导师的 ...

  8. ncbi查找目的基因序列_教你如何利用NCBI寻找目的基因

    最近经常碰到查找目的基因的问题,那今天就讲一下如何利用NCBI数据库查找目的基因! NCBI(National Center For Biotechnology Information),美国国家生物 ...

  9. ncbi查找目的基因序列_如何查找目标基因序列?掌握这几招就够了!(NCBI篇)...

    原标题:如何查找目标基因序列?掌握这几招就够了!(NCBI篇) 上周的干货软文为您介绍了如何在Ensembl数据库查找目标基因序列(Ensembl篇),这周我们将进入NCBI篇,为您讲解如何在该数据库 ...

最新文章

  1. CVPR禁令出台:审稿期间禁止主动在社交媒体宣传论文!LeCun:阻碍科学交流,简直疯了...
  2. 怎样把 Boot Camp 里 Windows 的色温调节得和 Mac OS X 一致
  3. CUDA(六). 从并行排序方法理解并行化思维——冒泡、归并、双调排序的GPU实现
  4. Objective-C学习笔记_命令行参数获取
  5. 全球及中国本质安全校准器行业销售前景与竞争规模预测报告2022-2027年
  6. 红帽linux cd命令,redhat linux 文件操作
  7. 【自适应盲均衡3】多模算法(MMA)——复数改进常模算法(MCMA)的理论推导与MATLAB仿真
  8. python爬取toefl_spark学习进度6-Python爬取数据的四个简单实例
  9. GOF之行为型模式Ⅰ(重点)
  10. (四)将容器部署到Azure上的Kubernetes
  11. GCN的形象讲解1,2
  12. html前端验证代码,前端js+html实现简单验证码
  13. 解决:Eclipse SVN一直要求输出登陆密码
  14. 企业微信重磅更新!离职继承无需客户同意、群自动踢人、群成员去重...
  15. 信息收集之——FOFA网站常用搜索语法
  16. 区块链技术指南学习(五)双花
  17. 网络卡打开网页在转圈圈怎么解决?
  18. excel中以文本形式保存长数字
  19. Arturia黑五促销,仅剩一天
  20. 3dmax中的纹理材质有什么用

热门文章

  1. 搭建直播系统,从拥有一个专属域名开始
  2. 纷享销客订货通:B2B渠道管理专属的经销商订货平台
  3. python产品作者如何去掉_python去除\ufeff、\xa0、\u3000
  4. 美颜SDK全身美颜是基于什么技术实现的?
  5. 【Python性能优化实例】计算 numpy 数组首尾为 0 的数量
  6. JDBC操作达梦数据库
  7. 雅可比迭代,高斯-赛德尔迭代
  8. 凡事预则立,不预则废
  9. html创建一个四行三列表单,HTML(三)表格table与表单form的基本使用
  10. 分块算法板子luogu1903