这是我2022-02-16在CGM分享的文字稿

从2016年,我开始自学生物信息,那个时候,为了加深自己学习,所以就不间断的在网上分享我的学习笔记。

我有一个自己的博客,xuzhougeng.top。当然,因为自己的名字比较特别,所以你们可以很容易的通过百度,谷歌搜索到我。


当我们在谈论生信的时候,我们实际在谈什么

首先,我们要明确生物信息学到底是什么, 什么是bioinformatics。

不然,我觉得你给一个搞生物的男朋友或者女朋友修电脑,给实验室修打印机,也可以说自己是在搞生物信息嘛。

这里,我用的是维基百科的定义

Bioinformatics (/ˌbaɪ.oʊˌɪnfərˈmætɪks/ (audio speaker iconlisten)) is an interdisciplinary field that develops methods and software tools for understanding biological data, in particular when the data sets are large and complex. As an interdisciplinary field of science, bioinformatics combines biology, chemistry, physics, computer science, information engineering, mathematics and statistics to analyze and interpret the biological data. Bioinformatics has been used for in silico analyses of biological queries using mathematical and statistical techniques

正如定义所说的,生信是一个交叉学科,涉及到各种学科,生物,化学,计算机科学,信息工程,数学,统计学等。

生信会涉及到工具和方法的方法的开发,对生物学数据的分析和解释等。

不难看出,生信是如此的复杂和庞大,因此,即便两个做生信分析的课题组,也可能根本聊不到一块去,甚至互相觉得对方不是在搞生信;

因为我个人局限性,所以,我今天提到的生信学习经验,仅仅是就是其中的高通量数据分析这一小部分而已。


生信入坑前传

先讲讲,我是怎么接触到生物信息学的吧。大概是我大二的时候,我们学院的培养计划,会让我们去找一个指导老师,在我找导师的过程中,就听一个老师说,农学院有一个老师做生物信息学,特别容易发文章。当时,我的梦想是发SCI,我以为SCI就是science的缩写,后来才知道它只是一个数据库而已(Science Citation index)。不过可惜的是,那个老师出国了,所以最后我找的老师,实际上还是传统的湿实验课题组。

到了2016年,我在植生所实习的时候,机缘巧合之下,我的一个师姐给了我2个样本的转录组数据,还有一篇介绍TopHat和Cufflinks的分析流程的参考文献,让我去折腾。

这就是我人生中第一次接触到高通量测序数据,也是我踩得的第一次坑,因此我第一个要分享的经验就是,“永远要搞清楚你的数据


永远要先搞清楚你的数据

为什么要这样子说呢?

首先,我们要知道高通量测序是有很多类型的,比如说基因组,转录组,表观组,不同测序方法有不同的分析思路。光是基因组,也分为基因组组装,还是重测序分析。

如果你都不知道自己测了什么数据,那你也就不知道你自己可以做哪些分析,也就不知道自己到底应该学什么。

此外,数据质量也非常重要。本来,你是打算测植物的组织的,结果实验准备阶段,材料污染了,测到的90%都是细菌微生物,那你这批数据也就废了。对于有经验的人来说,可能也就是数据不能用而已,大不了重做。但是对于初学者而言,这就非常致命了,因为你可能会怀疑是不是自己的能力问题,是不是软件选错了,是不是代码跑错了。同时,你可能还面临着师兄师姐,导师的方面的压力。他们可能会想,生信不就是跑跑代码嘛,为啥你搞了半天,啥结果都没有啊,那你还是别搞了吧,估计你也不是这块料。于是你的自学之路就这样子断了,多可惜啊!

还有,实验设计也很关键。拿转录组的差异分析来说,大部分的软件是需要你的样本是有重复的,如果你实验设计的时候没有考虑到重复,那你可能就得去找一些冷门的软件了。

我当时拿到的转录组数据就是没有重复的,这就导致我根本无法按照常规思路来处理数据。更重要的是什么呢?这还是我绞尽脑汁,在一年后的某个时刻突然间才想清楚的。

如果你和我一样,也是自学生信,我的建议是,不要直接用你师兄师姐的数据练手,而是找一些已发表文章或者是别人教程数据。先用已经验证的流程来增加的信心,而不是直接开始探索,因为各种奇奇怪怪的问题,对自己的学习能力产生怀疑。

上面说到,我是在一年后的某个时刻,突然想清楚的,于是,这就引出了我第二个要分享的经验,’100小时入门定律‘


100小时入门定律

2014年,有一本畅销书叫做【异类】,讲的是1万小时定律,就是你在某个领域练习1万小时才能成为专家。当然这个并不准确,提出刻意练习的安德斯·艾利克森教授写了一本书,叫做【刻意练习】,讲的是只有正确的练习,才能够从新手变成大师。当然这两本书都有一个关键主题,那就是你得大量的练习,才能掌握一门新技能。

从我的角度讲,自学生信最困难的一个阶段,就是入门阶段。我的自学过程是非常痛苦,因为没有人指导,也不知道自己先去学啥,所以就啥都学,有一段时间就在翻译Biocondutor上的教程。学了很久,都是迷迷糊糊的,感觉跟没学一样。

直到某一次上完生物统计学课之后,在回实验室的路上,我在回忆上课的知识时,突然间脑子有一种通透的感觉,自己学到的知识好像都连在了一起。那个时刻开始,我才觉得,自己终于有能力去处理数据了。而这前前后后,从我第一次接触高通量测序,差不多过去了半年时间了。

因此,如果你要自学生信,那你就得明白,这个事情真的得花上不少的时间。在这里,我有两个不成熟的小建议

  1. 导师充足的信任,心无旁骛的自学
    比如说,我的研一阶段基本上就是在自学,王老师基本上没有怎么管我。因此,即便有些问题卡了我好几天,我都不会泰国焦虑,因为我有足够的的时间去找到原因,并解决他。
  2. 掌握好实验技能,慢慢学习
    比如说,我的一个师兄,张天奇博士,原本是做传统湿实验的,博后阶段,他在MP,NC,DC上发表了多篇植物单细胞的文章,这里面的单细胞数据分析部分都是他自己完成的。在我来王老师课题组之前,他并没有太多Linux和R语言基础,也是花了很多时才掌握的。

假如,你终于入门了生信,这个时候,你可能会有一段时间,自信心爆棚,感觉自己都会,只要花时间,什么分析你都能做。于是,这就引入了我第三个要分享的经验,‘你不应该什么都会’


你不应该什么都会

因为你是自学,所以你应该是课题组第一个会做数据分析的人。一开始,你可能就只需要处理RNA-seq数据,慢慢的,你可能要处理ChIP-seq, ATAC-seq。一开始你是不会的,但是经过一段时间学习,你发现自己也差不多会了。于是你的自信心爆棚,感觉高通量数据数据处理不过如此,只要花点时间,你就什么都会了。

但是,我想说的是,你要小心这个状态。你很有可能会跟天龙八部的鸠摩智一样,好像样样都会,但是深究起来,可能就知道皮毛个皮毛而已。

因此,我建议,你不要什么都学;有些分析如果公司有了成熟分析流程,那就让公司完成上游分析,自己专注于更加重要的生物学意义上。尝试去教会你的是师弟师妹,师兄师姐,让他们自己做一些分析,让实验室有一个生信的传统。


邓宁-克鲁格心理效应

最后,我想用一个心理学效应来结束本次分享。

在我们学习一个技能的时候,我们随着自己技能水平的提高,自信心会不断增加。感觉自己好像什么都知道一样,但是随着你知识的继续增加,你会发现自己其实什么都不会,你就会开始迷茫,会经历了一个自信心崩塌的过程。这个时候,我们还得坚持下去,坦然接受自己的不足,并补足它。最终,你会走到另一个高峰。

我的生信自学心得分享相关推荐

  1. **生信自学记录1——获取Fastq格式的反向互补序列**

    ` 生信自学记录1--获取Fastq格式的反向互补序列 总共分为三步 1.读取基因序列的str格式,返回反向互补序列str 2.打开fastq格式的文本提取基因序列,返回互补序列list 3.读取互补 ...

  2. 生信宝典被分享最多的15篇文章

    在这篇文章随机森林预测发现这几个指标对公众号文章吸粉最重要发出后,有朋友问分享最多的文章是哪些? 这里列出来15个,感谢大家持续分享. Nature重磅综述 |关于RNA-seq,你想知道的都在这 在 ...

  3. 生信老司机以中心法则为主线讲解组学技术的应用和生信分析心得—限时免费

    海哥,中国科学院遗传与发育生物学研究所,生物信息学博士.在生信宝典出品过多部"傻瓜式"教程. 生信宝典之傻瓜式 (一) 如何提取指定位置的基因组序列 生信宝典之傻瓜式 (二) 如何 ...

  4. 生信自学笔记(五)计分矩阵的实例

    氨基酸替换矩阵 PAM 替换矩阵 PAM(Point Accepted Multation) 是基于进化的点突变模型产生的,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高. ...

  5. 生信自学笔记(九)智慧的长者与多序列联配之clustal全局联配算法

    要不,还是先讲个黑暗的小故事吧. 国王愈来愈烦躁了,他觉得这个国家满哪儿都是人,大街上走着人,池塘里泡着人,屋顶上晾着人,自己去四下巡游,什么风景都看不着. "这可不行,这么多人,东西哪够分 ...

  6. 生信自学笔记(十二):基因组序列与基因预测

    基因组 在生物学中,一个生物体的基因组是指包含在该生物的DNA(部分病毒是RNA)中的全部遗传信息,或者说是一套染色体中完整的DNA序列. 对于单倍体细胞,基因组是指编码序列和非编码序列在内的全部DN ...

  7. 生信自学笔记(二)生物信息

    基本类型 1. 核苷酸序列数据 DNA 或 RNA 当中四种碱基的排列顺序. DNA : A T C G RNA : A G C U 2. 蛋白质序列和结构数据 蛋白质序列是指 20 种氨基酸的排列顺 ...

  8. Python自学心得分享

    学习python,我首先根据自己完全代码零基础的情况下,为什么学习Python作为核心问题,进行了一个自我定位以及目标定位,我认为只要有一个目标,那么就找方法去打成目标就行了. 我是完全零基础,选择学 ...

  9. perl语言入门第七版 电子版_百迈客带您走近生信分析【入门篇】

    年末促销倒计时:59天 百迈客推出年末活动促销,发文有礼.推广有礼以及多种产品钜惠来袭,百迈客为您倾情打造科研福利,您还在等什么?快快行动起来领取您的超级奖励吧!(详情请见"决战2020!品 ...

  10. 你想要的生信知识全在这——生信宝典目录 (181202)

    生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题.但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程 ...

最新文章

  1. 聊聊storm的stream的分流与合并
  2. “AI界漫威” 深度学习超级英雄联盟漫画:吴恩达,李飞飞…
  3. 2017年要学习的三个CSS新特性
  4. HDU 1010 Tempter of the Bone DFS(奇偶剪枝优化)
  5. (四)RTL级低功耗设计
  6. odoo 自定义视图_如何使用Windows的五个模板自定义文件夹视图
  7. python学习之路(10)--难点
  8. 编程基础(动态内存的分配)
  9. BIM族库下载——Revit栏杆族库
  10. html简单导航页单页源码
  11. axure不能导出图片_Axure7.0导出图片提示内存不足,如何解决?
  12. 微信小程序第三方框架
  13. 设计师必备的30款好看的手写字体免费下载
  14. 模拟小信号调理电路(智能车电磁组)
  15. android 查找联系人方法(支持首拼,全拼,英文)
  16. Nature子刊:基于静息态EEG功能连接模式识别精神疾病亚型
  17. python 学生成绩表,生成数据表并且绘图
  18. 卡片 -【2020牛客NOIP-普及组(第四场)】
  19. 专题采访高维视力复健体系创始人 两天看清2.0的四维六度空间集训法
  20. icode编程图形化|一级训练场|基础训练1

热门文章

  1. [ZT]新点子,就在空气中飘荡着...
  2. 模块化笔记软件 Anytype 综合评测
  3. 给个华为服务器账号和密码忘了怎么办啊,华为路由器登陆用户名和密码忘了怎么办?...
  4. 最小采样频率计算公式_SPC子组样本量大小和抽样频率
  5. 立帖为据,每日学习一课编程技术
  6. python 空间法向量可视化_三维空间中平面的法向量计算
  7. codec engine代码阅读四---CE_DIR/examples/ti/sdo/ce/examles/codecs/videnc_copy
  8. 无线上网认证之Portal认证
  9. mysql自动全量更新表_MySQL数据库自动全量备份脚本
  10. matlab x对数坐标,matlab 对数坐标