LncRNA在哺乳动物中大量转录,通过复杂多样的分子机制在多种生物学过程发挥重要功能,与人类疾病的发生发展密切相关。近些年,lncRNA成为基因组学与生物信息学领域的研究热点,涌现出大量研究成果。然而,丰富的lncRNA知识分散在文献中,使得获取、整合、统计及解析这些信息变得费时费力。尽管目前已开发了一些lncRNA知识库,为深入研究lncRNA提供了支持,但多数知识库专注于某一方面的注释,如疾病、互作、生物学功能、临床信息、亚细胞定位及发育过程。

为方便科研人员全方位深入研究lncRNA,国家基因组科学数据中心开发了更新版本的人类lncRNA知识库LncRNAWiki 2.0。LncRNAWiki 2.0大幅提升了系统框架,结构化展示了功能性lncRNA的10类共计41个主题的注释信息(基本信息、保守性、分子特征、临床关联、靶基因、调控因子、实验样本、生物学功能、CRISPR实验以及文献),并支持注册用户基于标准化的审编模型在线提交/编辑/更新lncRNA相关知识。

截至2021年10月,LncRNAWiki 2.0共收录2,512个经实验研究的人类lncRNA的106,242条知识关联信息,所有相关知识在Browse页面均可一键免费下载。此外,还开发了多种在线工具,用于lncRNA ID转换、序列比对和功能预测,助力发掘新的lncRNA功能。

该知识库以“LncRNAWiki 2.0: a knowledgebase of human long non-coding RNAs with enhanced curation model and database system”为题在国际学术期刊Nucleic Acids Research 在线发表(知识库网址为:https://ngdc.cncb.ac.cn/lncrnawiki/)。

图1 LncRNAWiki 2.0首页截图

知识库核心功能及操作演示

1.LncRNA知识浏览及下载

目前,LncRNAWiki 2.0共包含2,512个lncRNA的106,242条知识关联信息(疾病:13,395条;功能:12,650条;药物:1,065条;互作:4,093条;分子标记:18,840条;实验样本:49,691条;CRISPR:587条)。为提供全面的lncRNA知识注释信息,LncRNAWiki 2.0整合了文献及16个专业数据库中的相关知识,并通过五个关键步骤实现标准化整合并确保注释内容的质量:(1)基于HGNC数据库中的symbol-alias信息统一库中lncRNA的名称;(2)标准化重要名词的写法(疾病、组织/细胞系、实验方法等);(3)去除不可靠文章来源(如论文工厂)的注释;(4)去除冗余及有歧义的注释;(5)改正书写错误等内容。

为方便用户查询及下载,Browse页面提供了不同形式的过滤和展示(https://ngdc.cncb.ac.cn/lncrnawiki/browse/)。具体来说,用户可以通过点击页面上常见的疾病、上游调控因子、下游靶向基因、生物学过程、通路以及功能机制名称来查询对应的注释信息(图2),也可以在下方的搜索框中输入感兴趣的内容来检索对应的注释条目,图3-4是以TUG1为例展示的部分注释结果。全部注释信息或过滤筛选后的结果均可通过点击“Download”按钮,一键下载获取。

图2 Browse页面展示的特色注释条目

图3 Browse页面过滤筛选功能

图4 Browse页面TUG1部分注释结果

2.单基因页面浏览

用户可通过访问单基因页面全面了解某一个lncRNA的全部注释信息(可通过在主页面的搜素框内输入基因名字进行访问,也可通过点击Browse页面中lncRNA名称链接跳转到单基因页面)。以TUG1为例,在单基因页面中可以看到该基因的详细注释条目及统计信息(https://ngdc.cncb.ac.cn/lncrnawiki/lncrna?symbol=TUG1)。用户在浏览页面过程中,可通过点击表格旁边的“CSV”或“Copy”按钮来下载感兴趣的内容。

单基因页面提供了错误报告功能,若用户发现错误(任何用户,无需注册),可以通过点击对应位置的“Report”按钮对错误进行描述,并提交正确的内容及联系方式。经过审核后,错误的内容便会被修改。

3.在线工具

为丰富lncRNA的功能注释,基于审编得到的lncRNA与上游调控因子、下游靶向基因的互作关系,以及与之共表达的mRNA,LncRNAWiki 2.0开发了lncRNA功能预测工具(https://ngdc.cncb.ac.cn/lncrnawiki/tool)。主要是从生物学过程、分子功能、细胞组分以及通路角度对lncRNA的功能进行预测,用户可以下载预测的结果图以及对应表格。例如,对TUG1的预测显示,除了已被证实的相关生物学功能,其可能在RNA剪切等方面发挥作用(图5,蓝色标记的是已有文献报道的功能条目)。

图5 TUG1生物学功能预测

另外,LncRNAWiki 2.0还提供了ID转换(LncRNA Symbol在LncExpDB、GENCODE、LNCipedia、NONCODE、BIGtranscriptome、CHESS、RefLnc、MiTranscriptome和FANTOM等数据库间的转换)以及BLAST序列比对等功能。

4.文献检索

LncRNAWiki 2.0共收录7703篇相关文献(https://ngdc.cncb.ac.cn/lncrnawiki/publication/)。在文献页面,用户可以看到每篇文章报道的lncRNA名称、引用次数、发表期刊以及时间等(图6)。用户可以在搜索框中输入感兴趣的lncRNA的名称来查询对应的文献,基于引用次数等排序浏览。

图6 Publication页面

5.在线审编

为方便lncRNA知识注释并规范审编流程,LncRNAWiki 2.0提供在线审编功能。用户可通过点击主页上的“Submit”按钮,注册个人信息并进入审编页面,对分子特征、临床关联、靶基因、调控因子、实验样本、生物学功能、CRISPR实验、文献等内容进行系统性审编。每一个主题提示框均有对应的受控词表提示词,用户可根据提示进行在线审编,需要注意的是,PMID以及lncRNA的Symbol信息为必填项(图7-8)。

图7 提交页面

图8 审编页面

北京基因组所(国家生物信息中心)特别研究助理刘琳,博士研究生李昭和硕士研究生刘畅为本文共同第一作者,马利娜副研究员与章张研究员为共同通讯作者。该研究得到了中科院战略性先导科技专项、国家重点研发计划、中科院青促会等项目资助。

也想做这样的数据库:生物大数据时代,如何做好数据管理和再利用,发IF10+的数据库文章?

参考文献

1.LncRNAWiki 2.0: community annotation of long non-coding RNAs with enhanced curation model and web system. Nucleic Acids Res 2021. Doi: 10.1093/nar/gkab998. [PMID=34751395]

2.LncRNAWiki: harnessing community knowledge in collaborative curation of human long non-coding RNAs. Nucleic Acids Res 2015. Doi: 10.1093/nar/gku1167. [PMID=25399417]

往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

NAR再版 | 人类长非编码RNA知识库LncRNAWiki 2.0相关推荐

  1. 人类长非编码RNA表达数据库,整合9种重要生物学场景(发育、癌症、病毒侵染等)...

    近日,由中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心开发的人类长非编码RNA(long non-coding RNA, lncRNA)表达数据库正式上线.该研究成果以`LncE ...

  2. Cell | 大规模多组织转录组学研究揭示长非编码RNA与人类复杂疾病的联系

    长非编码RNA(long noncoding RNA, lncRNA)是一类普遍存在的异质RNA.与蛋白质编码基因不同,lncRNA的表达较低,组织特异性强,个体间的表达差异较大,因此,其表观遗传标记 ...

  3. Nucleic Acids Research | NONCODE数据库V6版发布,涵盖全面的动植物长非编码RNA注释

    长非编码RNA(long non-coding RNA,lncRNA)是一类长度大于200nt的非编码RNA.大量研究表明,lncRNA具有重要的调控功能,在植物和动物的各种生物学过程中起着重要作用. ...

  4. DeepLncLoc:一种基于子序列嵌入的长非编码RNA亚细胞定位预测的深度学习框架

    目录 摘要 结果: 可用性: 1.介绍 2.方法 2.1数据集 2.2仅使用 k-mer 特征编码 rna 序列的局限性 2.3. 随后嵌入 2.4. 网络架构 2.5评估指标 2.6实施细节 3.结 ...

  5. 平地起高楼之漫谈长非编码RNA

    平地起高楼之漫谈长非编码RNA  关于长非编码,我还记得当时在生物化学课上,刘老师专门拿出了半节课向我们介绍长非编码RNA.正好当时也做了笔记,于是结合笔记和网上查阅的资料,简要的写写长非编码RNA. ...

  6. Nature Reviews Cancer综述:长非编码RNA在肿瘤转移中的作用

    近年来,虽然癌症的诊断和治疗取得了长足进步,但转移性癌症患者的预后仍然很差,转移性疾病占癌症相关死亡的绝大多数.癌细胞从原发性肿瘤向远处器官的扩散是一个有序的.多步骤过程,称为侵袭转移级联反应.在过去 ...

  7. Nucleic Acids Res | 陈润生/何顺民团队发表非编码RNA相互作用数据库NPInter v5.0

    非编码RNA对生物分子的调控作用,一直是RNA功能研究的前沿.在以往的研究中,非编码RNA被发现可以和蛋白质.RNA以及基因组相互作用,调控复杂生物过程.比如经典的长非编码RNA Xist可以和X染色 ...

  8. 《生物信息学:导论与方法》--非编码RNA的预测及分析--听课笔记(十三)

    第七章  非编码RNA的预测及分析 7.1 非编码RNA 以非编码RNA为例,演示如何在RNA-Seq等转录组测序技术产生的RNA数据基础上进一步探索生物学问题. 在转录组中既包括大家早已熟悉的编码蛋 ...

  9. 原核转录组非编码RNA研究

    本文转载自"美吉生物",己获授权 说到非编码RNA,可能大家会想到真核生物中miRNA .lncRNA和circRNA.确实~"真核非编码RNA三剑客"现阶段进 ...

最新文章

  1. angular ngClick 阻止冒泡和默认行为
  2. linux下装windows驱动,linux下安装windows xp无线网卡驱动
  3. 使用Html5+C#+微信 开发移动端游戏详细教程 :(三)使用html5引擎搭建游戏框架...
  4. 15.3D效果,盒阴影和滤镜
  5. Postfix:邮件系统常见错误代码解释
  6. C#获得计算机名,当前登录用户名,Ip地址 .
  7. NOIP2018初赛翻车总结
  8. 把生活过的像模像样已经很不容易
  9. nxlog以syslog方式发送日志
  10. 树莓派 树莓派 编c++_如何建立一个树莓派冰箱的冷冻监视器
  11. SSLv3 协议漏洞‘POODLE’修复与相关概念
  12. 深入学习Redis系列文章
  13. 计算机网络故障的排除,网络故障怎么排除 网络故障排除方法
  14. eclipse 2021-09版本汉化--英化
  15. 中国讲座网创业手记十八:给公司起个好名字
  16. MySQL学习一条龙
  17. 兔斯基QQ表情全集GIF篇下载(到8月2日)234整理
  18. java学习整理(链接版,暂未分类)
  19. 基于5G用户卡的5G接入认证分析及试验
  20. 三极管放大电路仿真模拟

热门文章

  1. 基于APMSSGA-LSTM的容器云资源预测
  2. 【2016年第6期】俄罗斯跨境数据流动立法规则与执法实践
  3. 【离散数学】纠错码基本理论
  4. python 计算机基础
  5. 基于Gulp的简易前端自动化工程搭建
  6. 技术人员兼职招聘平台HourlyHerd融资2200万美元C轮融资
  7. CISO的真正挑战:密码管理、IoT安全合规性
  8. Linked List Cycle
  9. backtype.storm.generated.InvalidTopologyException:null问题的解决
  10. (NO.00003)iOS游戏简单的机器人投射游戏成形记(一)