第七章  非编码RNA的预测及分析

7.1 非编码RNA

  • 以非编码RNA为例,演示如何在RNA-Seq等转录组测序技术产生的RNA数据基础上进一步探索生物学问题。
  • 在转录组中既包括大家早已熟悉的编码蛋白的信使RNA(mRNA),也包括近来新发现的、不编码蛋白的miRNA、long non-coding RNA(lncRNA)等非编码RNA。
  • 这些RNA转录本彼此协同作用,共同来调控细胞生长、发育、凋亡等一系列重要的生理过程。
  • 所谓非编码RNA,是指不需要翻译为蛋白即可以RNA形式行使其生物学功能的RNA分子。
  • A non-coding RNA(ncRNA) is any RNA molecule that could function without being translated into a protein.
  • 非编码基因对应的基因组DNA区域常常被称之为非编码RNA基因,或者简称为RNA基因。
  • 基因、染色体、蛋白质、DNA,RNA 之间的关系是什么?

基因是 概念 ,染色体-DNA-RNA-蛋白质是 化学实体 ,DNA - RNA - 蛋白质的关系就是中心法则。

DNA就是脱氧核糖核酸(英语:Deoxyribonucleic acid,缩写为DNA)由含氮的碱基+脱氧核糖+磷酸组成。因为核糖和磷酸都一样而碱基又可以分为四种(腺嘌呤A,鸟嘌呤G,胸腺嘧啶T,胞嘧啶C),所以脱氧核糖核苷酸就可以分为四种(按照碱基的不同来分)同时在书写过程中可以用这碱基的简写代替。

RNA就是核糖核酸(RiboNucleic Acid )由含氮的碱基+核糖+磷酸组成,而组成脱氧核糖核酸的碱基是:腺嘌呤A,鸟嘌呤G,尿嘧啶U,胞嘧啶C。同样,也按照碱基的不同把脱氧核糖核酸分为四种,在书写过程中也可以由着四种碱基的简写代替。

蛋白质就是蛋白质了,由氨基酸构成的生物大分子。

基因:是遗传的基本单元,是产生一条多肽链或功能RNA所必需的DNA片段。可以简单理解为好长一段DNA链中比较特殊某段。

染色体:细胞内具有遗传性质的遗传物质深度压缩形成的聚合体,易被碱性染料染成深色,所以叫染色体。

  • 早期发现的核糖体RNA、rRNA、tRNA等都是负责维系细胞的基础代谢过程,因此在多种类型的细胞、组织乃至器官中均持续表达,作为housekeeping genes发挥功能。
  • 近年来新发现的非编码RNA则主要是对其他基因的转录和翻译进行调控。
  • 这些非编码RNA通过多种机制参与到对基因表达的调控,因此常常具有器官、组织乃至细胞类型特异的表达模式。
  • ncRNA are encoded in the genome:
  1. The ENCODE(ENCyclopedia Of DNA Elements) pilot project suggested that over 90% of the human genome may be represented in primary transcripts.
  2. Over 95% of all transcripts are noncoding. Some estimate the number of ncRNAs to be ~30,000.
  • miRNA在多种肿瘤的发生、发展中起着核心的调控作用,并可以作为病程诊断与进展程度的marker。因此miRNA已经被多家制药公司作为肿瘤、心脏病、艾滋病、疱疹病毒感染等多种疾病的治疗靶点。
  • ncRNA并不仅限于miRNA等“小”RNA,长非编码RNA(long non-coding RNA,lncRNA)的长度可以达到几十乃至上百kB。
  • lncRNA可以像mRNA一样,包含多个exon,有可变剪切以及polyA尾巴(polyA tail)。
  • lncRNA也参与到多多种类型的生理及病理过程的调控中。
  • 举例:lncRNA Xist是雌性哺乳动物X染色体失活过程中的决定性调控因子。
  • How many non-coding transcripts?
  • What are the functional roles of those ncRNAs?

7.2 长非编码RNA的鉴定

  • 所谓鉴定(identification)可以看作一种分类(classification),也就是利用一组特征(feature)来将具有不同特性(property)的个体(individual)区分开来。但这些特征通常只需与我们感兴趣的特性有关联即可,不必要求直接等同。
  • 那利用哪些特征呢?直接利用已知的生物学特性(property),如pre-miRNA会形成发卡结构,以此为基础,基于RNA二级结构来鉴定新的miRNA。但这个方法对于其功能不依赖于特定二级结构的lncRNA并不适用。
  • 有没有可能只用转录组本序列本身的信息,而不依赖于多序列比对等外部信息来区分ncRNA和mRNA呢?并且这个方法不依赖于特定的机制,对长非编码RNA和miRNA等同样适用?并且这个方法在保证准确性的前提下要尽可能快?
  • Feature Selection, 是指对一组候选特征进行系统筛选(systematically screening),来得到一个针对特定分类目的的特征子集(feature subset)。
  • feature selection方法可以分成完全搜索、启发式搜索和随机搜索三类。
  • 完全搜索时间太长,一般不用。
  • 前向搜索是一种爆发式搜索,通过向空子集中依据单个feature的分类power逐个加入,直到新加入的feature无法继续提升分类准确度为止。但是前向搜索中不能删除已经被选择的feature,可能会导致高度相关的feature同时被加入,从而造成冗余。
  • 对于n个feature,前向搜索原则上最多只需要尝试n种组合,大大降低了计算量。
  • 随机搜索方法:Simulated Annealing,adding or removing features based on an "annealing-like" probability.
  • 随机搜索方法在feature selection过程中引入了随机因素,以试图避免陷入局部最优。
  • Simulated Annealing其本质上是一种随机算法,最终性能高度依赖于初始值以及参数的选择,同时最终结果的 稳定性也是一个问题。
  • Initialized feature set是如何获得的?
  1. Properties of entity
  2. Speculate based on existed knowledge
  3. Predecessors established certain statistic
  4. The data that thought to be relevant
  • 在feature selection的过程中,选择一个合理而且有效的初始列表,对于后续的feature selection乃至identification的效果都非常重要。
  • Coding Potential Calculator (CPC): 对于不同长度的ncRNA都可以达到90%以上的准确率。
  • CPC的运行速度是同样基于SVM的CONC的10倍以上,正确的feature selection发挥了重要作用。
  • CPC已经成为了常用的在线非编码RNA鉴定工具之一,被应用于从表达调控到疾病研究乃至演化分析等多个领域。

7.3 变量选择----启发式搜索以及序列后向搜索的应用

  • 启发式算法的基本原则就是对每一步的运算进行评估,选择最优的进行下一步运算。
  • SFS,Sequential Forward Selection, 序列前向选择,即变量集从空集开始,每次选择一个变量加入,使得评价上获得最优解。简单来说,每次都选择一个使得评价函数的取值达到最优的变量的加入,就是一种简单的贪心算法。
  • SBS,Sequential Backward Selection, 序列后向选择,从特征全集O开始,每次从特征集O中剔除一个特征x,使得剔除特征x后评价函数值达到最优。
  • 前向搜索的问题是不能删除变量,会引起变量之间的信息的重复。后向搜索的问题是不能加入删除的变量。这两种算法同时非常容易陷入局部最优。
  • 特征选择常用算法综述
  • BDS,Bidirectional Search, 双向搜索使用序列前向选择(SFS)从空集开始,同时使用序列后向选择(SBS)从全集开始搜索,当两者搜索到一个相同的变量子集C时停止搜索。
  • 双向搜索理论上并没有避免之前的陷入局部最优的问题,但是节省了时间,同时有可能导致选择出来的前向和后向的结果不一样,从而达不到最优解。
  • LRS, Plus-L Minus-R Selection, 增L去R选择算法,每次训练是增加L个变量,同时删除R个变量,这两个值是固定的。选取的L和R会很大程度的影响结果。但是可以避免一些变量信息的重复选取。
  • Sequential Floating Selection, 序列浮动选择是由LRS发展而来的,区别就是这里的L和R不是一个定值。

《生物信息学:导论与方法》--非编码RNA的预测及分析--听课笔记(十三)相关推荐

  1. LncFinder | 非编码RNA的识别与分析神器!!!~

    1写在前面 非编码RNA(ncRNAs), 是指不编码蛋白质的RNA.

  2. 原核转录组非编码RNA研究

    本文转载自"美吉生物",己获授权 说到非编码RNA,可能大家会想到真核生物中miRNA .lncRNA和circRNA.确实~"真核非编码RNA三剑客"现阶段进 ...

  3. TACOS:一种用于准确预测细胞特异性长的非编码RNA亚细胞定位的新方法

    <TACOS:一种用于准确预测细胞特异性长的非编码RNA亚细胞定位的新方法> <TACOS: a novel approach for accurate prediction of ...

  4. 《生物信息学》阅读笔记 (四):非编码RNA

    除mRNA以外,生物体内还存在许多不编码蛋白质的RNA,直接在RNA水平发挥作用,称为非编码RNA(non-coding RNA, ncRNA). 细胞中含量最高的rRNA和tRNA这两种常见的非编码 ...

  5. DeepLncLoc:一种基于子序列嵌入的长非编码RNA亚细胞定位预测的深度学习框架

    目录 摘要 结果: 可用性: 1.介绍 2.方法 2.1数据集 2.2仅使用 k-mer 特征编码 rna 序列的局限性 2.3. 随后嵌入 2.4. 网络架构 2.5评估指标 2.6实施细节 3.结 ...

  6. LncLocator 2.0:具有可解释深度学习的长链非编码RNA的细胞特异性亚细胞定位预测器

    Motivation:长链非编码RNA ( lncRNA )通常以组织特异性的方式表达,lncRNA的亚细胞定位取决于它们表达的组织或细胞系. <特色> 以前用于预测lncRNA亚细胞定位 ...

  7. 第六章 非编码RNA鉴定

    第六章 非编码RNA鉴定  阅读量: 154 主要为RNA-seq相关知识,部分内容作笔记自查使用.如有错误或遗漏还请海涵,可评论或邮箱联系. 最后修改时间:2020-09-07 14:38:07 星 ...

  8. Nature Reviews Cancer综述:长非编码RNA在肿瘤转移中的作用

    近年来,虽然癌症的诊断和治疗取得了长足进步,但转移性癌症患者的预后仍然很差,转移性疾病占癌症相关死亡的绝大多数.癌细胞从原发性肿瘤向远处器官的扩散是一个有序的.多步骤过程,称为侵袭转移级联反应.在过去 ...

  9. Cell | 大规模多组织转录组学研究揭示长非编码RNA与人类复杂疾病的联系

    长非编码RNA(long noncoding RNA, lncRNA)是一类普遍存在的异质RNA.与蛋白质编码基因不同,lncRNA的表达较低,组织特异性强,个体间的表达差异较大,因此,其表观遗传标记 ...

最新文章

  1. 文巾解题 231. 2的幂
  2. Algorithm:数学建模大赛之数学建模基础(经验/技巧)、流程(模型准备/模型假设/建模/求解/分析/优化/预测/评价)、论文写作(意义/摘要/关键词/问题重述和模型假设/建模/文献)之详细攻略
  3. 关于网络蜘蛛以及搜索蜘蛛爬行
  4. S2SH框架入门之使用struts2
  5. 根据使用频率为 5 个字符设计的哈夫曼编码不可能是( )
  6. gitlab project项目迁移
  7. 加快信息化建设对地方发展的_加快设计师职业发展的9种方法
  8. 安装配置ASMlib驱动
  9. 【FPGA】——UART串口通信
  10. linux qt遍历设备,Qt获取设备环境变量
  11. (一)数据挖掘概念与技术——韩家炜
  12. 免费素材:分享33套好看的网页按钮和图标素材
  13. 高级计算机使用教程,计算器高级计算使用方法
  14. asp cstr 函数
  15. 360众测考核简单记录
  16. PCB多层板的一些资料
  17. 流畅安装、简单使用annie下载B站视频
  18. 前端怎么加粗字体_【推荐】皮卡丘怎么画?教你如何轻松绘画出可爱的宠物小精灵!...
  19. 淘宝教育视频加速观看(在淘宝教育上看学习视频,需要加速,在谷歌浏览器上安装视频加速插件)
  20. Qt opengl 图片实现3D效果

热门文章

  1. 向窗口输出文字--TextOut和DrawText函数
  2. 如何用TextOut输出非字符串型变量
  3. 私はついにあなたを失った作者婷雨
  4. 潇洒郎: Pycharm 自定义脚本模板
  5. Oracle中用exp/imp命令快速导入导出数据
  6. 一个月薪3W,但有点失败的北京程序员的真实生活!!!
  7. 腾讯AI同传博鳌会上闹乌龙,技术界和翻译界怎么看?
  8. 使用AspectJ LTW(Load Time Weaving)
  9. 区块链技术用解决拜占庭将军问题_区块链技术如何解决拜占庭将军问题?
  10. 投资理财-心态很重要