计算生物学_01机器学习理论部分

1.1.1数据库的注释质量

如何发现数据中的错误和异常

机器学习技术能够有效的识别和发现错误的数据信息和错误的注释方法;在一批数据中,如果样本难以学习,那么他们很有可能是某些非正常情况,或者是注释不正确,在这种情况下,因该通过检测原始的数据质量,发现数据中的异常值,并除去这些异常数据,再进行分析。

机器学习能够识别真核生物基因内含子剪接位点的标识错误,也能识别小RNA病毒中的单蛋白剪切位点错误标识,以及O链接的糖基化位点的标识性错误。

1.1.2数据库的冗余

通过cDNA序列(完整的或者不完整的)代表了mRNA前体剪接后的形式,这意味着,对于那些经过可变剪接的基因,其基因组中的DNA片段一般对应于几条在染色体中并不连续的cDNA序列,可变剪接的产生可以有多种不同的方式。

对于基因芯片微阵列的基因序列,不管是被点样到玻璃平板上,还是直接在DNA微阵列上生成,实验中所使用的基因序列总是基于储存在数据库中的序列或者序列簇,因此,微阵列中最终包括的序列,会多与特定生物体全体基因组中的基因著名,从而在定量化的芯片实验的杂交记录时产生噪音。

数据冗余带来的误差结果:

1.如果蛋白质或者核苷酸序列包含很大的密切相关的序列家族,统计分析将偏向这些家族,并侧重描述它们具有的特征;

2.序列不同位置表面上的相关性可能是对序列数据进行有偏倚的采样所导致的认为特征;

3.在我们使用数据集对某一特征进行预测或用于选择,表达预测方法的时候,如果用于训练和标定预测方法的训练数据集的数据与用于测试的序列相关性过于密切,现人会过高估预测方法的性能,从而导致预测结果的过度拟合,对于训练数据集具有高度的预测结果,但是放到通用的数据进行预测模拟将会导致数据的预测准确率的降低。

数据集的密切相关的序列的精确定义和数据的非冗余性之间的平衡,恰当的定义过于密切相关。

另一种替代策略,保留数据集中的全部序列,根据序列的奇异度赋予它们不同的权重。对于密切相关的序列的预测将得到很低的分值,而相关距离较远的序列构成了预测的主体。这一方法主要风险在于: 错误数据总是与较大的权重相关联。   对于复制错误的特征做出的预测将影响到这个模型的评价,甚至可能导致对预测性能的严重低估。不仅假位点很难预测,而且那些可能在正确注释中出现的真位点也经常被即为假阳性。

计算生物学_01机器学习理论部分相关推荐

  1. 探索机器学习理论的最新进展,走近云、端、芯上的视觉计算——“智源论坛:机器学习报告会”重点梳理...

    1909 年,莱特兄弟通过纯粹的工程方法首次把飞机送上了天,但彼时的他们并不了解其中的原理.如今,经过几十年的发展,飞机的性能较之当年已然不可同日而语.究其原因,主要在于上世纪四五十年代,人们在空气动 ...

  2. 【机器视觉】探索机器学习理论的最新进展,走近云、端、芯上的视觉计算

    来源:产业智能官 1909 年,莱特兄弟通过纯粹的工程方法首次把飞机送上了天,但彼时的他们并不了解其中的原理.如今,经过几十年的发展,飞机的性能较之当年已然不可同日而语.究其原因,主要在于上世纪四五十 ...

  3. 博士申请 | 佐治亚理工学院陈永昕教授招收机器学习理论方向博士生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 佐治亚理工学院 佐治亚理工学院机器学习和智能机器人实验室 (Foundat ...

  4. 机器学习理论《统计学习方法》学习笔记:第五章 决策树

    机器学习理论<统计学习方法>学习笔记:第五章 决策树 决策树 5.1 决策树模型与学习 5.1.1 决策树模型 5.1.2 决策树与if-then规则 5.1.3 决策树与条件概率分布 5 ...

  5. 机器学习理论《统计学习方法》学习笔记:第四章 朴素贝叶斯法

    机器学习理论<统计学习方法>学习笔记:第四章 朴素贝叶斯法 4 朴素贝叶斯法 4.1 朴素贝叶斯法的学习与分类 4.1.1 基本方法 4.1.2 后验概率最大化的含义 4.2 朴素贝叶斯法 ...

  6. 机器学习理论《统计学习方法》学习笔记:第三章 k近邻法

    机器学习理论<统计学习方法>学习笔记:第三章 k近邻法 3 k近邻法 3.1 K近邻算法 3.2 K近邻模型 3.2.1 模型 3.2.2 距离度量 3.2.3 K值的选择 3.2.4 分 ...

  7. 简单自学机器学习理论——引言 (Part I )

    本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译. 以下为译文 机器学习理论--part I 前言 (第II部分内容点此:第III部分内容点此) 动机 大多数人在小的时候被魔术师以及魔术技 ...

  8. 主成分分析法案例_机器学习理论(五)主成分分析法

    (小小:机器学习的经典算法与应用) (小小:机器学习理论(一)KNN-k近邻算法) (小小:机器学习理论(二)简单线性回归) (小小:机器学习理论(三)多元线性回归) (小小:机器学习理论(四)线性回 ...

  9. 机器学习理论研究方法探讨

    本文译自:http://www.alexirpan.com/2016/07/17/ml-sleep.html,原文标题<The Machine Learning Casino>,译文供您参 ...

最新文章

  1. Mysql之主从复制及主主复制
  2. Linux系统Git环境配置
  3. Linux 文件系统错误的修复方法 ddrescue替代dd的恢复软件 备用超级块
  4. 剪映导出帧率选多少_剪映帧率怎么设置?剪映帧率设置方法
  5. php cannot find libz,brew安装php70出现configure: error: Cannot find libz 错误解决方法
  6. Django基本概念、安装、配置到实现框架,Xmind学习笔记
  7. OO’s Sequence
  8. oracle 11g rac 环境(1)
  9. keras搭建多层LSTM
  10. CSS3---3.相对父元素的伪类
  11. 一线二线城市工作的区别
  12. fatal: ‘http://git.#####.com/test-auto/stability.git/‘ 鉴权失败
  13. TGA文件格式分析和图片举例
  14. 动手智能小车记(5)-坦克底盘硬件模块大杂烩
  15. 通过定义函数,来实现判断1-100之间奇数的目的
  16. 程序员需要了解的先秦文学
  17. Grid控件 设置格子背景颜色
  18. 面试时应该采取什么方法才能克服紧张的情绪?
  19. Haru Free PDF Library——生成PDF的库
  20. javaone_Java SE 9在JavaOne 2017上达到了Atari般的性能

热门文章

  1. .net人员用Java 之Java EE
  2. Python爬虫爬取微博热搜保存为 Markdown 文件
  3. Win10解决Android Studio:Gradle sync failed: Failed to open zip file.
  4. HWUI(硬件加速绘制UI)简介
  5. 计算机基础(二):嵌入式驱动、图像处理知识设备小结
  6. 手动挂载USB/光驱步骤
  7. koa2 导出excel表格设置样式_一调整Excel表格的行列宽度,图片又得重新调整?点这个设置就行...
  8. mysql触发器主机自动增长_三分钟带你分清 Mysql 和 Oracle 之间的误区
  9. 服务器做raid bios界面做raid配置
  10. centos linux mysql 5.5脚本全自动源码包 编译安装