做了好久的RNA-seq分析,基因表达也在口头溜了几年了,但似乎老是浮在表面。

对一件事的了解程度决定了你的思维深度,只想做技工就不用想太多,想做大师就一定要刨根问底。

老是说基因表达,那么什么是基因表达?我们测序得到的基因表达其实只是一种表型,是样本的一个快照,和普通的身高体重之类的连续型表型类似。

常规的转录组分析本质上都是表型分析,clustering、pseudotime、DEG、marker,在这些分析中,每个基因都是独立的维度,属于静态的分析,此时我们关注的是某个基因的功能分析,比如RET,功能已经明确,那就可以用基因表达这个表型来解释另一个表型。

高通量测序还会有后续的分析,几万个基因不可能一个一个的研究,GO和KEGG分析就来了,基因不是互相独立的,GO term和pathway的概念就来了。GO和KEGG的本质是规范了基因之间的关系。GO整合了所有物种,是从生命系统的角度来统一基因的关系,这种关系只是一个集合;KEGG是针对一个物种来界定基因之间的关系,这种关系是有向图结构。必须再深入了解GO和KEGG的制作原理,暂时不深入。此时我们开始区分基因类型,蛋白编码、非编码、转录因子。在这个阶段我们更关注的是基因之间的调控关系

中心法则揭示了生命系统的层级和管道结构,和计算机的通信系统很类似,就算上游的基础调控再复杂,下游的蛋白都是决定性因素,所以令人惊叹的是上游调控如此复杂多变,可下游的蛋白确是非常稳定,这说明复杂多变的调控是非常稳定的。

基因研究的第一步必然是基因的功能,其次才是基因的调控。

基因功能

那么如何研究一个基因的功能呢?参考:#基因组观#基因功能研究的“七大绝招”与“三板斧” - BioinforCN

简单总结一下这篇文章:

1. 天地人和,研究基因表达的时空规律来推测功能,这和侦探调查是一样的,属于间接推理;

2. 患得患失,就是直接操作基因,knock out或down或overexpress,来直接探索基因的功能,属于直接观察;

3. 上下求索,因为中心法则是个层级和管道系统,上下游十分明确,从基因的DNA、RNA到蛋白质,一起研究;

4. 十面埋伏,立体论证,做生物的很容易观察到假阳性,必须多角度论证;

5. 其他的,misexpression、in vitro/vivo。

不说人类hs了,假设你负责一个全新的物种的基因组和基因功能研究,你如何找到该物种的所有基因呢?

看任何一篇基因组组装文章都能找到解决方案。那我们就看看严建兵的最新的玉米的NG吧,Genome assembly of a tropical maize inbred line provides insights into structural variation and crop improvement。

微信文章:《Nature Genetics》| 玉米产量相关基因找到了 | 热带玉米基因组及高精度结构变异图谱成功构建,助力玉米遗传改良

首先是基因组DNA的组装,Genome sequencing, assembly and scaffolding,这部分纯技术,以后估计都不要组装了,直接把基因组测出来;

其次就是基因组注释了,Genome annotation,这部分是我们现在最感兴趣的部分,如何找到一个新物种内的所有基因?

A comprehensive strategy combining de novo gene prediction, protein-based homology searches, RNA sequencing (RNA-Seq) and isoform sequencing (Iso-Seq) of nine tissues (Supplementary Table 6) was used to annotate the genes (Supplementary Fig. 7).

方案来了:

1. 基因是有特殊结构的,所以只要有DNA序列,就可以做denovo预测;

2. 中心法则告诉我们DNA、RNA和蛋白质是环环相扣的,所有测RNA-seq和iso-seq可以间接推出基因;

3. 蛋白测序还没有普及,所以目前都用的同源蛋白序列来反推;

这样注释出来的只是很general的基因注释,能cover绝大多数基因,但某些特殊结构的肯定无法注释出来。

有了草图,后面再做实验的功能研究就会方便很多。

基于高通量测序的前两步只能告诉你基因组的这个地方是个基因,但是不可能告诉你它的功能;第三步就是基于已有的知识了,做同源推理。所以目前来看所有的生物知识都是来源于实验的,测序只是一个加速的辅助手段而已。

可以没有测序,但是不能没有实验,测序是科研加速的催化剂。

文章结果:

GENE FINDING METHODS - broad institute - 很全面

基因表达调控/转录调控

教科书解释:

  1. 染色体和染色质水平的结构变化,导致基因活性变化;Hi-C,bulk平均好些,sc的量太少不靠谱
  2. 转录水平调控;转录因子,enhancer,promoter,ncRNA
  3. RNA加工水平调控,剪切修饰编辑降解;甲基化,lncRNA抑制降解
  4. 转录后,细胞核向细胞质转运;HDAC4
  5. 翻译水平;
  6. 蛋白合成水平;蛋白修饰定量,不是AA测序

目前最火的两个可以用高通量测序研究的调控方法:

  • 转录因子,enhancer,promoter
  • 非编码RNA,lncRNA、miRNA、ceRNA

参考:

Modes of transcriptional regulation

Transcriptional Regulation and Its Misregulation in Disease

项目问题:

现在in vivo和in vitro模型都已成熟,RNA-seq成本大家都可以接受了,CRISPR技术也成熟了,KO一个基因已经变得非常容易,现在发育生物学、生物医学等都在这么做:KO一个基因,来探索自己感兴趣的生物过程发生了哪些变化。

现在问题来了,KO后表型肯定发生了变化,那么如何把这个表型和基因表达和调控联系到一起呢?

这是一个general的问题,解答好了可以用于任意一个基因的深入研究。

大体解决方案:

假设检验是科研获取真知的唯一手段,首先我们必须要一个合理的假设,然后去寻找各种证据来test这个假设。

没有假设和验证就不是做科研,那就是一个技工得出一份没有意义的结题报告。


问题:

1. RNA-seq的建库方案有哪些?ployA、随机等。只抓有polyA的MRNA会有哪些优势和缺点?ployA只有mRNA有,所以polyA建库只能抓到蛋白编码基因,很少部分地ncRNA。参见链接

2. 细胞核和全部测序的区别?

3. 基因的长度差别到底有多大?

4. 可变剪切和isoform是如何影响蛋白的?

5. KEGG里面已经有基因的关系了,为什么我们还要研究基因调控?

6. 蛋白互作网络的用途和局限性是什么?

7. 蛋白是唯一的决定性因素吗?是的,绝大多数DNA和RNA层面的变化都会最终改变蛋白的功能。比如HSCR的无法形成ENS就是一个复杂的表型,可以肯定的是某些蛋白的功能执行紊乱了。

8. 基因表达的高低重要,还是基因表达的on/off重要?

9. 基因是如何找到和定位的?基因的编码的蛋白是如何确定的?

10. 如何理解基因之间的关系,是什么性质的关系?

11. 如何立即基因的拷贝数对基因表达的影响?

12. transposable-element对基因表达的影响?

13. 基因的经典结构是什么样的?什么是CDS和UTR?可以结合目前主流的基因预测工具来看。

14. 转录调控和蛋白互作有什么联系和区别?

Typical structure of a mature eukaryotic mRNA (AUG, UAA/UAG/UGA)

待续~

转载于:https://www.cnblogs.com/leezx/p/11006218.html

(基因功能 基因表达调控)研究方案相关推荐

  1. 带你初步了解基因表达调控

    简介 基因表达调控机制是后基因组时代一个重要的研究内容.基因表达调控包括转录水平.转录后水平和翻译水平的调控. 转录水平调控 转录水平的调控是指通过改变转录速率从而改变基因表达的水平,其对遗传信息的传 ...

  2. 【中科院】分子生物学-朱玉贤第四版-笔记-第11-12讲 基因功能研究技术

    第 11-12 讲 基因功能研究技术 文章目录 8. 基因功能研究技术 8.1 基因活性的操控技术 8.1.1 过表达 (overexpression) 8.1.2 基因定点突变 (site-dire ...

  3. 【文献解读】RNAi技术在油菜基因功能研究中的应用

    [文献解读]RNAi技术在油菜基因功能研究中的应用 题目:Specific and multiple-target gene silencing reveals function diversity ...

  4. 壮观霉素抗性基因原理_基因组学深入挖掘·研究方案(下篇)

    前情回顾 上次小编为大家讲解了四种以基因组为基础的多组学联合研究方案(基因组与转录组,深入挖掘基因表达信息:基因组联合代谢组与转录组,锁定关键通路:基因组与群体进化,解析物种发展历程:基因组结合GWA ...

  5. 深入浅出原核基因表达调控(乳糖操纵子、色氨酸操纵子)

    原核基因表达调控 前言 自然界里,能量时有时无,各种生命为了让自己能够活下去,需要适应环境,在不同的环境合成不同的蛋白质. 原核生物体内有很多细胞,细胞里面有很多蛋白质,但是这些蛋白质在这些细胞里的个 ...

  6. 易基因|m5C甲基化研究揭示mRNA m5C对维持果蝇生殖干细胞发育的分子机制

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 2020年02月18日,Stower研究所解亭教授团队与南方科技大学李思思团队合作研究发现果蝇的YPS蛋白通过优先结合带有m5C修饰的R ...

  7. 深度综述|基因与疾病关系研究的百年进展

    点击[医学方]  关注我们 今天为大家介绍今年4月份发表在Briefings in Bioinformatics(IF=8.99)的综述,作者对43个基因-疾病数据库和工具的来源.更新情况以及能否应用 ...

  8. 转录调控研究技术之:DNA亲和纯化测序(DAP-seq)

    转录因子(TF)在动植物的生长发育及其对外界环境的反应中起着重要的调控作用.在基因组学和表观遗传学研究中,转录因子结合位点(TFBS)的发掘一直是研究热点.传统的染色质免疫共沉淀测序(ChIP-seq ...

  9. 基因功能注释分析的意义

    基因功能注释分析的意义 基因功能注释分析简介 基因功能的注释依赖于基因结构或者序列,将基因序列或蛋白序列和主流数据库进行比对获取该基因的功能信息,最终对预测的编码基因进行功能注释.常见的功能注释数据库 ...

最新文章

  1. php中的session机制
  2. linux最小安装桌面,Linux工作环境:CentOS7最小安装+Xfce桌面环境
  3. 一句话概括4本管理著作
  4. android photopicker怎么修改状态栏,有没有办法阻止UIImagePickerController更改状态栏样式?...
  5. idea 错误: 找不到或无法加载主类(汇总贴)
  6. C#2005中如何把unicode编码的数字转化为EBCDIC编码
  7. visual studio快捷键总结
  8. 图像类似度測量与模板匹配总结
  9. '用户 'sa' 登录失败。该用户与可信 SQL Server 连接无关联,做JSP项目连接数据库 ....
  10. HTML5实现在线拍照功能(调取摄像头API)
  11. 产品读书《赋能:打造应对不确定性的敏捷团队》
  12. Exploring Simple Siamese Representation Learning[arxiv Submitted on 20 Nov 2020]------论文解读
  13. 方正快速开发平台ES2007(3.5版本)新增功能特点
  14. uni-app 报错getUserProfile:fail can only be invoked by user TAP gesture.
  15. r340服务器怎么接显示器,笔记本电脑如何连显示器_笔记本怎么链接显示器
  16. session到底是什么
  17. 程序员等级图鉴,大牛头发有点少
  18. Google Code注册方法详解 Google Code网盘申请方法 1
  19. PICE(5):MongoDBStreaming - gRPC -MGO Service
  20. leetcode系列-54. 螺旋矩阵

热门文章

  1. 网络游戏程序员新手入门 [转]
  2. 解读物联网八大环节供应链(附13大电子行业产业链全景图)
  3. 《计算机网络》以太网
  4. 生物信息常用文件格式
  5. 桌面动态壁纸 wallPaper engine
  6. 阿拉伯数字 转换 中文大写
  7. 良心录屏工具Captura
  8. cf 581B-------Luxurious Houses
  9. 深度优先搜索-迷宫问题
  10. 【智能商务】海量商品查找利器—苏宁搜索系统