生物信息学习的正确姿势(第三版)

NGS系列文章包括NGS基础、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述))、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step) - Limma差异分析、火山图、功能富集)等内容。

如何快速查找指定基因的调控网络介绍了使用在线查询数据库 (http://evexdb.org/)对PubMed和PubMed Central中发表文章的摘要和全文为依据进行文本挖掘探寻基因直接可能的相互作用的工具。反响很好,但现在网站似乎出了点问题,获得的相互作用细节信息不能展开了(推测可能是使用的JS库无法加载)。有朋友留言推荐 Cytoscape literature search,一个存在历史挺久的Cytoscape插件,通过给定关键字搜索文献,并且基于搜索结果构建互作网络,帮助研究者快速搜索和提取基因之间,蛋白之间可能的联系,兼容2.7和3.1版本,下载32,742次。

作为Cytoscape的插件,安装很方便,基本的Cytoscape使用见Cytoscape之操作界面介绍和新出炉的Cytoscape视频教程。前段时间R, Cytoscape, AI的培训班也涉及了更多的Cytoscape的使用。

安装完之后,从菜单栏Apps-Agilent Literature Search启动,使用界面如下。

左侧一般输入一个或多个基因 (若输入多个则每一行输入一个),右边限制一个环境,可以是物种,也可以是某种疾病如lung cancer,或某个过程stem cell。下面的选项还可以选择是否使用别名 (选择后我们输入的pou5f1就被转成了oct4, otf4等),限定物种,限定相互作用的判断 (个人一般使用relaxed)。具体每个参数的含义详见后面解释。

前面输入的内容都会在Query Editor中转换为逻辑查询表达式的形式,方便查看搜索的内容是否符合自己的需要,也可以自行修改,比如我们把stem cell改为AND连接。

点击蓝色箭头就可以启动搜索。搜索到的文献展示在左下角,可点击跳转到PubMed,右键删除某一项。

右侧展示的是挖掘出的调控网络,可以根据属性进行一些修饰、美化和查询。

网络查看和美化

首先是调大字体 (Label Font Size),设置搜索出的基因和挖掘出的相互作用基因不同的颜色 (Fill Color-searchTerm-Discrete Mapping), 删掉与核心基因没有连线的点,Apply preferred layout重新调整布局 (工具栏上的刷新按钮)。

如果觉得线太过扭曲,可以Layout-Clear all edge bends,然后再点击Layout-Bundle edges使连接看上去圆润。初步修饰下,效果如下:

如果常用,每次调样式也比较麻烦,可以把样式保存起来,点击样式旁的三道杠,选择Copy style重新命令 (若不导出,关闭后就不见了),然后File-Export导出。下次查询好之后,再File-Import导入就好。也可后台回复 style,获取我们这个简单的样式,以此为基础修改。

每个节点,点击右键,按下图点选菜单,可以看到支持其相互作用的文章句子节选,方便快速阅读和理解潜在的调控关系。

更多Cytoscape的使用见之前的新出炉的Cytoscape视频教程。在R, Cytoscape, AI的培训中也有我们的主讲老师讲的更多的Cytoscape的使用。(后台回复 培训 ,跳转到培训网站查看视频)

选项解释

寻求帮助

在上述查询界面,按F1或点Help可以打开帮助页面如下。当前截图显示的是通过View菜单选择搜索的数据库,现在只有PubMedUSPTO (美国商标专利数据库)可选。

Max Engine Matches: 限制每个字符串在每个库最大查询到的结果数目。

Use Aliases: 选定后,将会根据Concept Lexicon中限定的物种寻找左侧输入框输入的内容的别名。查询时,有一个别名匹配上就可以。

Use context: 是否使用Context面板 (右侧输入框)限定查询。

Concept Lexicon Limits Search: 如果需要把搜索结果限制在某个物种,则勾选。

Concept Lexicon: 通常是物种相关的选项,对Use aliases的判断和搜索结果提取有效,但不用于限制查询结果。所以如果要在查询时就限制物种,则需要再右侧输入框输入物种的名字,会加快查询速度。

Interaction Lexicon: 限制判断相互作用的严格程度。对于每个包含搜索关键字的句子,都会来判断里面是都包含interaction lexicon收录的动词,如activate, enhance, cause等。这些关键词可以修改,有严格版和宽松版。

Load and Save: 搜索结果可以存储和再次导入。

选项进一步解释和自定义

如果Windows下,LiteratureSearch的配置文件在目录C:\Users\sxbd\CytoscapeConfiguration\app-data\com.agilent.labs.als.AgilentLiteratureSearch-3.1.1\data下。(把sxbd改为您的用户名)

Interaction Lexicon:前面提到的limit, relax, empty每一个的效果都记录在文件interaction-lexicon-map.txt中,文件内容如下

limited    data/strictVerbNames.txt
relaxed    data/verbNames.txt
empty    data/emptyVerbNames.txt

每个不同的参数表示使用的关键词列表不同,empty表示不进行限定,只要两个词出现在一个句子中就认为有作用。

strict表示严格限定,默认要求句子中必须含有收录的15个单词中的一个才认为存在相互作用 (在文件strictVerbNames.txt)。

relaxed默认要求句子中必须含有收录的75个单词中的一个才认为存在相互作用,涉及促进、抑制、结合、催化等对应的英文单词和变种,在使用过程中,我们也可以不断完善、添加更多词汇到verbNames.txt中,以获得更多关注的相互作用。

Concept Lexicon

这个由文件concept-lexicon-map.txt控制,默认收录了常见物种的KEGG注释信息、基因的别名信息。

Arabidopsis thaliana    data/.uc_Arabidopsis_thaliana
Bos taurus    data/.uc_Bos_taurus
Caenorhabditis elegans    data/.uc_Caenorhabditis_elegans
Danio rerio    data/.uc_Danio_rerio
Drosophila melanogaster    data/.uc_Drosophila_melanogaster
Escherichia coli    data/.uc_Escherichia_coli
Homo sapiens    data/.uc_Homo_sapiens
Mus musculus    data/.uc_Mus_musculus
Rattus norvegicus    data/.uc_Rattus_norvegicus
Saccharomyces cerevisiae    data/.uc_Saccharomyces_cerevisiae

以人的数据为例,前面是KEGG编号、对应的描述,后面是基因的每个名字一行,方便使用别名搜索。如果不知道基因别名或想下载KEGG注释,直接用这提供的就好。

6.3.5.8    aminodeoxychorismate synthase    adc synthase    4-amino-4-deoxychorismate synthase    pabb
6.3.5.9    hydrogenobyrinic acid a, c-diamide synthase (glutamine-hydrolysing)    cobb
dynamin    dynamin-1    dynamin1
dynamin-2    dynamin2
epsin    epsin1    epsin-1
nf-kappaB    nfkappaB    nfkb1    nfkb    nf-kappa B    nfkappa B
frizzled    fz    fzd    fzd7
dsh    disheveled    dishevelled    dsh1    dvl1l1    dvl1
bcatenin    beta-catenin    beta catenin))

之前如何快速查找指定基因的调控网络文章下有朋友留言,非模式生物怎么查找,一个是利用生信宝典之傻瓜式(四)蛋白蛋白互作网络在线搜索中提到的在线工具STRING收录了2031物种。另外一个就是在这自定义需要的文件,使用此插件搜索。

往期精品(点击图片直达文字对应教程)

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

生信宝典之傻瓜式 (五) - 文献挖掘查找指定基因调控网络相关推荐

  1. 生信宝典之傻瓜式(五) 文献挖掘查找指定基因调控网络

    欢迎关注天下博客:http://blog.genesino.com/2018/01/literature-search/ 傻瓜系列重启了,如何快速查找指定基因的调控网络介绍了使用在线查询数据库 (ht ...

  2. 生信宝典之傻瓜式(六)查找转录因子的靶基因

    请关注天下博客:http://blog.genesino.com/2018/04/cistrome/ 傻瓜系列教程断断续续出了5篇了,依次为: 生信宝典之傻瓜式 (一) 如何提取指定位置的基因组序列 ...

  3. 你想要的生信知识全在这——生信宝典目录 (181202)

    生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题.但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程 ...

  4. 生信宝典文章集锦,你想看的都在

    本文转载自"生信宝典",己获授权. 生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题.但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会 ...

  5. 生信宝典教程大放送,一站式学习生信技术

    生物信息学包含生物数据分析.数据可视化.重复工作程序化,是生物.医学科研必备的技能之一.生信宝典精心组织生信学习系列教程.生信工具精品教程,通过大量的生信例子.关键的注释.浓缩的语句和录制的视频帮助快 ...

  6. 生信宝典:生物信息学习系列教程、视频、资源

    生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题.但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程 ...

  7. 生信宝典文章集锦,一站式学习生信!众多干货,有趣有料

    生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题.但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程 ...

  8. 你想要的生物信息知识全在这——生信宝典文章目录

    培训 生物信息作图系列R.Cytoscape及图形排版和Python编程培训研讨班开课了 120分的转录组考题,你能得多少 维密摔倒不可怕,关键时有人搀一把,坚持走下去 生物信息作图系列 - R.网络 ...

  9. 生信宝典,生物信息学习资源

    内容列表: R语言学习 - 热图简化 R语言学习 - 热图美化 R语言学习 - 基础概念和矩阵操作 R语言学习 - 热图绘制 (heatmap) R语言学习 - 入门环境Rstudio R语言学习 - ...

最新文章

  1. 深度图像检测算法总结与对比
  2. 字体在ppt中可以整体替换吗_干货,做PPT时这样选择字体,瞬间提升幻灯片档次,看完你就懂了...
  3. mysql where in 中多个参数查询
  4. 非确定性算法_使用最坏情况提高基于MPC的避障算法对参数不确定性的鲁棒性
  5. Intel Realsense D435 Realsense View 错误 RT IC2 Config error
  6. mysql+两行+一样+筛选_MySQL计算相邻两行某列差值的方法
  7. trie树查找前缀串_Trie数据结构(前缀树)
  8. 为普及再助一把力!《2021年中国低代码/无代码市场研究报告》正式发布
  9. python代码写好了怎么运行-python代码如何运行
  10. Spring框架零基础学习(一):IOC|DI、AOP
  11. Web设计-提交前的对话框
  12. CSS cursor鼠标样式一览表
  13. jeb配置java环境_jeb 提示 java help space
  14. 50--出租车计费器
  15. 题解 P4480 【[BJWC2018]餐巾计划问题】
  16. java 货币符号_java使用Currency类获得指定国家的货币符号
  17. windows环境下_Django3.2+django_apscheduler0.6实现异步定时计划任务
  18. 机器学习_第四天(线性回归+岭回归+逻辑回归)
  19. html css 正六边形,css画正六边形
  20. I2C器件之PCF8574TS调试记录

热门文章

  1. 【软件质量】对this或字符串加锁的弊病
  2. 【MySQL】向已有主键的表附加主键属性的自动编号
  3. 【Java】常见的异常和Throwable类
  4. 使用Spring框架实现数据库事务处理
  5. 大数据时代最值得关注的15大技术趋势
  6. session一致性架构设计
  7. ****** 三十三 ******、软设笔记【存储器系统】-主存储器、辅存储器
  8. python paramiko使用
  9. Linux基础知识一
  10. 时空大数据实践之GeoWave安装部署实践