生物信息学习的正确姿势

NGS系列文章包括NGS基础、高颜值在线绘图和分析、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。

  1. 学生信,不是贪多的,而是求精的!

  2. 生信学习入门常见错误可能的原因分类总结和求助指南

  3. 生信学习学的是什么?常识!

1. 理解你的目标并选择合适的工具

好的计算生物学家的关键是选择合适的工具。就像我们不能在不理解PCR的基本原理时就去实验室操作这个实验,同样地如果我们不理解软件的原理,就会不知道选择的软件是否合适、结果怎么解释。比如转录组序列比对需要选择支持Splice-map的工具,因为mRNA成熟时经历了剪接;比对会基因组时会初选跨越内含子的reads。理解算法不需要我们去读懂源码,但对其原理、适用性和特点要有个概念。

2. 对自己和他人的脚本设置陷阱测试

做实验需要正对照和负对照,运行脚本也是。脚本不知道我们的目的是什么,只要提供的数据格式正确,就可以运行不报错。但结果是否正确需要我们自己把关。通常是手写数个小的结果已知的数据集进行测试,涵盖自己能想到的尽可能多的情况,已确定脚本做的事情跟自己预期一致。

3. 记住自己是科学家不是程序员

完美是完成的敌人。牢记自己是科学家,研究的质量优先级高于代码的优雅。在确保核心算法无误的基础上,多关注生物问题,有时间再去完善代码和文档。

4. 使用版本控制工具

采用GitHub等记录脚本、文档的修改,维持多个版本和协作代码。写好README文件记录开发历程,何时因何故对代码作此修改,以备后续用到时再回想起来当初的设计。发表文章的同时发表脚本和数据,以便他人复现。也可以发表到这个Nature推荐的代码海洋竟然有文章作者上传的所有可重现性脚本,涉及单细胞、微生物组、转录组分析、机器学习等相关。

5. 凡事流程化不可取 (不过早包装)

Pipeline是一系列脚本的集合,可以更方便结果的重现和类似分析工作的快速完成。但你需要衡量形成Pipeline是否节省了时间、是否有必要。三思而后行。大家如果熟悉Makefile,倒也无妨,不外乎是把Linux命令放到Makefile中运行。

6. 要拥有奥巴马般的自信

Yes you can! 不畏惧,用于尝试和探索,修改现有代码满足自己的需求。写代码其实就是怎么想的怎么写,写出来前几句,路就顺了。爱冒险,也接受会遇到坑,借助谷歌、讨论群,大踏步迈过去。

参加好的培训班是有意义的,可以节省很多时间,快速走上正确的道路。但切记,培训班只是开始,需要不断的练习。学习没有捷径,但可以借力加速。

7. 要有怀疑精神和质疑气魄

生物数据集尤其是来源于高通量测序的数据,庞大而有噪音干扰。即便是受过统计训练的生物学家在看到软件或流程输出的符合预期的结果时也会把怀疑置之脑后。通常需要多个不同角度的结果辅助一个结论。生物知识对解释实验结果至关重要,生物实验验证也是必须的。

8. 命令行下工作和编码

习惯在Unix/Linux命令行下工作,你会发现它们真的很强大。编程语言无优劣,选择在你身边最流行的,有问题可以交流。EXCEL会改变你的数据。

9. 做一个数据侦探

计算生物学家很长时间都在分析和解释数据。数据里面包含0个或多个故事,但通常不太明显。需要我们从实验设计和分析过程来综合解析。勇于识别和排除数据中的系统偏差和异常点。与项目中的其它科学家通力合作,讨论结果,提出后续实验验证假设。也有可能你的数据什么都发现不了,果断放弃。

10. 不重复造轮子

通常无论多么奇怪的问题都有可能在网上搜索到解决方案,善用搜索引擎、论坛和社交工具。加入或成立本地的交流圈是很好的互相促进的开始。(自己衡量造轮子和搜索轮子哪个时间更划算

  • Mick Watson is at The Roslin Institute, University of Edinburgh, Edinburgh, UK, and is Head of Bioinformatics at Edinburgh Genomics, an academic genomics facility developing bioinformatics training in next-generation sequence analysis (http://genomics.ed.ac.uk). Follow him on Twitter, @BioMickWatson, and on his blog at http://biomickwatson.wordpress.com/.

  • Nick Loman works as an independent research fellow in the Institute for Microbiology and Infection at the University of Birmingham, Birmingham, UK, sponsored by a Medical Research Council Special Training Fellowship in Biomedical Informatics. Follow him on Twitter, @pathogenomenick, and on his blog at http://pathogenomics.bham.ac.uk/blog.

  • https://www.nature.com/articles/nbt.2740

往期精品(点击图片直达文字对应教程)

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

(请备注姓名-学校/企业-职务等)

NBT:你想成为计算生物学家?相关推荐

  1. 题目68:学生查阅了相关资料,估算出一天的主要运动所消耗的热量,并想编程计算总消耗量。输入各项目所消耗掉的热量(单位是大卡),以空格分隔。输出一个整数,表示各项总的消耗量。

    题目转载:http://python.wzms.com/s/1/68 题目描述: 人体运动时,热量的消耗取决于多方面的因素.进行同样的运动,体重越重所消耗的热量就越高.运动项目.运动强度.运动量等因素 ...

  2. Excel中建立数据透视表,想用计算字段功能,但是该选项灰色无法点击,怎么办?

    在添加数据透视表时,将最底下的✔去掉 这样就可以点击"计算字段"了

  3. 如何在计算机上新建硬盘,我想在计算机上添加另一个硬盘,我该如何设置?

    一.安装前的注意事项 在安装双硬盘之前,请先检查计算机内部的基本情况,例如3233363533e78988e69d83336是否有空间安装第二块硬盘,是否有备用数据电缆端口,计算机电源是否可以支持两个 ...

  4. 机器学习算法 - 随机森林之决策树初探(1)

    随机森林是基于集体智慧的一个机器学习算法,也是目前最好的机器学习算法之一. 随机森林实际是一堆决策树的组合(正如其名,树多了就是森林了).在用于分类一个新变量时,相关的检测数据提交给构建好的每个分类树 ...

  5. 那个一年发4篇cell的研究生后来怎样了?

    每天太忙,没时间看书 怎么利用碎片化时间 看到好内容? 今天给大家推荐 一批优质公众号 资料经验啥都有 有深度有内容! 赶紧关注吧! 科奖在线 查看全文 http://www.taodudu.cc/n ...

  6. 生信宝典文章集锦,一站式学习生信!众多干货,有趣有料

    生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题.但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程 ...

  7. Nature子刊:你想成为生物信息学家?

    1. 理解你的目标并选择合适的工具 好的计算生物学家的关键是选择合适的工具.就像我们不能在不理解PCR的基本原理时就去实验室操作这个实验,同样地如果我们不理解软件的原理,就会不知道选择的软件是否合适. ...

  8. mysql多条件查询_使用dsum轻松搞定多条件查询,学会它,再也想用sumifs了

    在excel中条件求和想必大家都不陌生,这个可以说是我们工作中经常遇到的问题,常见的条件求和函数有sumif以及sumifs,但是还有一个更加强但知道的人却非常少的函数,他就是dsum函数,dsum相 ...

  9. 如何利用计算机计算天数,如何应用Win10系统电脑中的计算器计算两个日期之间的天数?...

    如何应用Win10系统电脑中的计算器计算两个日期之间的天数? 相信很多小伙伴都有在使用windows10系统的电脑,其中的计算器如何才能用来计算两个日期之间的天数呢?方法很简单,下面小编就来为大家介绍 ...

最新文章

  1. 如何更好的招聘软件测试人员?
  2. c语言里的多参数吗,C语言中不定参数的实现
  3. postgresql高可用_Postgresql高可用实现方案
  4. 关于SQL Server 2017中使用json传参时解析遇到的多层解析问题
  5. 深度学习(6) - 循环神经网络
  6. ubuntu 18.04 安装 中文 拼音 输入法
  7. arm Linux 低成本方案,参赛作品《低成本基于ARM+Linux平台搭建web服务器的物联网学习板》...
  8. [转载] python int 幂函数_Python中对数和幂函数的不精确结果
  9. 区间合数的最小公倍数(质数+因数分解)
  10. 【MCVRP】基于matlab模拟退火算法求解带多种容量的车辆路径规划问题【含Matlab源码 918期】
  11. 我用九天时间,深挖一条闲鱼诈骗黑色产业链。
  12. HttpClient 通过资源URL下载资源
  13. 使用Chrome开发者工具下载Instagram上的图片
  14. Spring学习-入门
  15. [笔记]Unity粒子特效1初次了解
  16. 解决方法:python下载慢,pycharm下载慢,anaconda下载慢,百度网盘链接分享给你备用
  17. 前端学习-jquery-实现点击button对文本的add及detele
  18. 阿里云对象存储OSS使用说明
  19. 企业债和公司债的区别(表)
  20. 【入门篇】ESP8266直连智能音箱(天猫精灵)控制智能灯

热门文章

  1. 《大数据》2015年第3期“研究”——大数据流式计算:应用特征和技术挑战
  2. 【Python】Pandas加载并查询Excel文件
  3. Python3 模块相关及输入输出模式
  4. 手机变身IoT设备之地理位置上报
  5. 深入了解jquery中的ajax方法参数
  6. 用Gradle命令行编译Android工程
  7. 转 html中offsetTop、clientTop、scrollTop、offsetTop各属性介绍
  8. mysqldump原理及实验
  9. jquery解决和其他库冲突的问题
  10. html5 Canvas API