基于马尔科夫链的关于CpG岛的模式识别分类学习器
这是模式识别课上的一个作业,本人花了一点时间做了一下,发现分类器的学习结果勉强还能接受,在这里分享一下。
关于CpG岛:我们知道,生物的基因组是由A,T,G,C四种核苷酸组成的序列。人的一套基因组单链是由约30亿个A,T,G,C组成的一个超长序列,可以把它看成是一本由四个字母写成的天书。这样一个超长的字符串或其中一个子串,并不是由这四个字母随机组成的,而是遵循着很多特殊、复杂的规律。比如,由于一些生物化学机制的作用,基因组同一条链上出现相连的C
和G的概率要比随机情况小很多。把相连的C和G叫做一个CpG双核苷酸。人们已经观察到,CpG在基因组上出现的平均率比根据C、G各自出现的频率估计的组合出现频率小很多,但是,这些有限的CpG在基因组上分布的位置不是均匀的,而是倾向于集中在相对较短的一些片段上,这种CpG相对富集的区域被称作CpG岛,就像大海上的小岛一样。CpG岛在基因组上有重要的功能,研究CpG岛的识别是非常有意义的。CpG岛识别的基本问题是,给定一段DNA序列,判断它是否来自CpG岛,即判断这段序列样本是否是CpG岛的一部分。这可以看作是一个两类的分类问题,两类分别是CpG岛和非CpG岛,我们所能利用的特征就是序列本身有很多方法来预测或确定CpG岛,这里我们用一种简单的基于马尔可夫模型( MarkovModel)的方法来说明在这种场景下用统计决策来进行分类的一种思想。
当我们独立地考虑DNA序列每个位置上的核苷酸时,我们可以把它当作一个有四种取值的离散随机变量x={A,T,G,C},面前面例子中我们考虑的都是x∈R的连续情况,在连续情况下,我们用概率密度函数来表示变量取值的分布,而在离散情况下,我们则用变量取各个值的概率来表示P(x),显然,P(x=A)+P(x=T)+P(x=G)+P(x=C)=1。在连续情况下,如果我们有多个特征,则用随机向量x来表示,特征之间的关系反映在随机向量的联合概率密度上。在离散情况下,如果序列的每个位置上核苷酸的分布是独立同分布的,那么每个位置就是随机变量的一次实现。但是,当我们考虑在连续的
基于马尔科夫链的关于CpG岛的模式识别分类学习器相关推荐
- 基于马尔科夫链的股市大盘指数预测
转载于:https://www.cnblogs.com/fangbei/p/8409132.html
- 第十五课.马尔科夫链蒙特卡洛方法
目录 M-H采样 Metropolis-Hastings采样原理 M-H采样步骤 Gibbs方法 Gibbs核心流程 Gibbs采样的合理性证明 Gibbs采样实验 在 第十四课中讲述了马尔科夫链与其 ...
- MCMC(二)马尔科夫链
在MCMC(一)蒙特卡罗方法中,我们讲到了如何用蒙特卡罗方法来随机模拟求解一些复杂的连续积分或者离散求和的方法,但是这个方法需要得到对应的概率分布的样本集,而想得到这样的样本集很困难.因此我们需要本篇 ...
- 蒙特卡罗 马尔科夫链 与Gibbs采样
这几个概念看了挺多遍都还是含混不清,最近看了几篇博客,才算大致理解了一点点皮毛,所以来总结一下. MCMC概述 从名字我们可以看出,MCMC由两个MC组成,即蒙特卡罗方法(Monte Carlo Si ...
- MCMC(一):蒙特卡罗方法和马尔科夫链
作为一种随机采样方法,马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,以下简称MCMC)在机器学习,深度学习以及自然语言处理等领域都有广泛的应用,是很多复杂算法求解的基础.比如分 ...
- 【有限马尔科夫链状态分解+Kosaraju 算法】基于Kosaraju 算法和可达矩阵的有限马尔科夫链状态分解
有限马尔科夫链状态分解+Kosaraju 算法 1 实验内容 2 理论基础 3 题目分析 4 按常返性和互通性对状态空间进行分解算法流程 4.1 强连通性和强连通分量 4.2 基于有向图 Kosara ...
- 灰色马尔科夫链matlab,基于灰色-马尔科夫模型的电力功率预测
利用1998-2009每年的用电量预测2010年的用电量 QQ图片20130515210109.jpg (20.32 KB, 下载次数: 18) 1998-2009每年用电量数据 2013-5-15 ...
- 基于python的马尔科夫链在股价预测中的应用(基于Tushare)
TushareID:503535 文章目录 前言 一.马尔科夫链是什么 二.代码如下 三.马尔科夫预测模型在股价预测中的应用 1.数据来源及状态划分 2.状态转移概率矩阵 P 及初始状态概率向量 图片 ...
- 马尔科夫链和马尔科夫随机场
From:http://blog.csdn.net/j123kaishichufa/article/details/7638181 1.什么是随机过程? 在当代科学与社会的广阔天地里,人们都可以看到一 ...
最新文章
- c语言gga字符串校验和代码,NMEA-0183协议解析(示例代码)
- java求数组中满足给定和的数对,【加试题】数组a中有50个互异的整数,已按升序排列。给定一个正整数key,寻找数组a中是否有一对数的和等于给定的数key,算法如下:...
- .NET MVC3使用CheckBox List(复选框列表)的简单方法
- axios config里自定义属性,使用拦截器拦截,无法拿到自定义属性问题
- 移动开发 Jetpack Compose 组件布局
- linux默认的系统管理账号是,从Linux到Solaris系统管理---1
- 上拉查看详情和下拉隐藏详情
- 牛客每日练习----​​​​​​​cayun日常之三七配对,ChiMu need water,mxh道歉记
- 微信公众号服务号怎么添加模板消息给所有粉丝群发
- javascript之函数的定义传参
- vscode 编写代码为白色 --解决办法
- [生存志] 第22节 历代大事件概览 五代十国
- w10计算机管理员权限在哪里设置密码,windows10管理员权限怎么设置_win10电脑设置管理员权限的步骤...
- 05、Python中转义字符与字符串
- 前端原生下载excel表格
- LTE----013 UE开机后的第一件事: PLMN选择
- PPPOE协议测试-网络测试仪实操
- 杀手级应用与共识机制
- MFC 检测笔记本电池电量
- 微信小程序开发01(安装与简单使用)